背景
基于数据融合的场景,为梳理现有的业务全景及数仓模型,去更方便地展示及分析业务属性的关系,快速准确地直击目标、节省资源。调研后决定使用CytoScape将数据关系可视化,把二维数据编织成网络拓扑图(如图)。
https://github.com/cytoscape/cytoscape/releases/3.7.2/
工具
Cytoscape是一个开源软件平台,用于可视化分子相互作用网络和生物途径,并将这些网络与注释、基因表达谱和其他状态数据集成在一起。简而言之是一款网络可视化软件,主要应用于生物研究,但网络拓扑的能力十分强大。
实施步骤
1. 按照相关规范及标准建立数仓模型
2. 识别抽提出数据范围内的核心关系数据、业务属性
3. 根据不同场景设计网络图所使用的元数据模型
4. 将元数据模型导入CytoScape
5. 调整布局
6. 发布并应用
应用场景
1. 数仓模型关系网:以某一视角为核心,如主数据,打通各业务域数据,连接各业务域的模型及模型下的属性,构建关系网
2. 数据资产运营:能够从关系网中直观得看到数据资产的沉淀,如数仓模型、指标等
3. 指标体系关系网:根据指标不同的等级和类型,构建关系网,组成指标的血缘系统
价值
1. 数据资产:根据资产等级定义,明确划分不同级别
2. 数据全景:展示数据范围,有效梳理资产范围
3. 数据血缘:直观的看到数仓中上下游和模型间的血缘关系
4. 指标血缘:同上,体现指标的等级和类型,上下关系
5. 数据融合:呈现数据融合的结果,点与点之间的延伸
6. 反哺业务:给业务提供一个新的视角,便于构建指标和产品
7. 可复用性:在全局关系网中做筛选,生成各种局部子图
8. 易读性:可视化的目的,比数据更直观
9. 资源控制:降低不同角色对理解使用数据的成本
角色
1. 外部客户
2. 内部客户
3. 中台
4. 产线
5. 数据人员