Skip to main content

数据地图

全域资产汇聚

  • 数据地图在原先的库、表、字段基础上,新增了【离线任务】、【实时任务】、【数据API】、【智能标签】的元数据查询。此类元数据不需要用户做连接采集的管理,资产平台会自动实时采集同租户下的其他子产品中所有项目内的元数据信息,从而实现汇聚中台内的全域数据资产、建立中台内横跨各产品的血缘图谱。

image-20221118114034782

  • 支持对某一类资产的搜索,能够查看某一类资产的详情信息。

image-20221117154751500

tip

①对于此类元数据,资产平台不会把所有信息都从子产品复制一份,而是只获取了一些基础的元数据信息

②更多的信息和功能操作,仍需要在各个子产品中操作,资产平台只是作为一个统一的查询入口

③子产品之间的快速跳转因为用户权限问题,该版本暂未实现,后续优化

元数据查询

查询引擎

  • 平台默认部署的查询引擎为MySQL,可满足百万级元数据的日常查询性能要求。
  • 当元数据量(表/字段)存在千万级、亿级的数据量时,支持部署ES查询引擎。平台功能层面无差别,但是需要至少新增3台服务器部署ES集群使用。

搜索逻辑

  • 搜索功能提供大范围的模糊搜索,支持「数据表」、「离线任务」、「实时任务」、「智能标签」、「API」五种查询维度,默认为找「数据表」,用户可根据需要自行切换,关键词包括:
    • 数据表:表名、表中文名、数据库名、数据源名。
    • 离线任务:任务名、责任人。
    • 实时任务:任务名、责任人。
    • 智能标签:标签名、发布人。
    • API:API名、创建用户。
  • 支持模糊匹配(目前仅支持匹配查询的名称和中文名称),返回结果根据不同的数据源类型分TAB展示,高亮显示命中内容。

数据目录

背景

目前资产平台的产品定位是聚焦于数据中台内部的数据资产管理,而以前的数据资源模块是偏向业务场景的数据目录设计,和产品定位有差异。因此我们将数据资源模块整合至元数据的数据地图,专注于五大类资产的数据目录管理,并把数据目录放入资产的元数据属性,支持目录的筛选和分类。

  • 数据目录提供了面向业务层面的数据查询和数据分类。

image-20221117154850845

  • 支持对五种资产类型进行数据目录的添加和删除。

image-20221117154913053

tip

每份资产所属的数据目录,有且只能有一个

订阅

  • 用户可对表进行订阅,订阅的表在「元数据-订阅的数据」中可进行查看。

    • 订阅逻辑:当订阅表的业务属性、表结构发生变更时,系统自动对订阅用户发出告警。

    • 订阅场景:常用于数据开发订阅业务系统的源表,可及时获知源表变更情况。

    • 告警通道:邮件、短信、钉钉、自定义告警通道。

      tip

      触发比对告警的条件:每次进行元数据同步时会对上一次的数据进行比对,如果对比发现有变更则会告警提醒。

      ①开启实时同步则会进行实时比对告警

      ②周期同步每次触发或执行手动同步任务时都会进行比对告警

image-20221117154929954

数据表详情

  • 以数据表为粒度,通过展示多种维度的元数据信息,让用户直观的了解这张表的作用和价值。各类型数据源的表元数据和表结构字段略有差异。

资产打标

  • 支持对任意资产维护自定义标签。

image-20221117154954056

  • 支持通过标签进行过滤查询。

image-20221117155047605

表结构

字段

用户可查看表结构的字段信息,如字段名、字段描述、字段标签、字段中文名、数据类型等。

image-20221117155138508

  • 数据标准:如果用户在「数据标准」模块为该字段绑定了数据标准,则可查看该字段的标准信息和版本变更信息。

image-20221117164345960

  • 分级分类:如果用户在「数据安全」模块为该字段进行了分级分类,那么该字段旁边会有分级标记。

image-20221117164408946

  • 分区:如果用户在建表时绑定了分区信息,那么对应的字段旁边会有分区字段标记。

image-20221117162843427

建表语句

用户可查看表创建的SQL语句。

image-20221117163805043

数据预览

  • 通过直接预览数据,更直观的了解表内容。默认仅展示100条数据,对于敏感数据,用户可在「数据安全-数据脱敏管理」模块进行脱敏,避免预览时造成数据泄漏。

image-20221117174143010

血缘关系

  • 通过图谱化的方式,直观地展示表、字段之间的数据流转关系。右上角可以筛选资产类型,查看和数据表关联的全链路血缘关系。

image-20221121143802516

tip

如果存在血缘解析没解析出来的血缘节点,用户可以手动添加表级/字段级血缘关系(血缘表/影响表)。手动添加的血缘节点右上角有小圆点标识,可进行删除操作。

  • 解析原理:
    • 平台内置血缘解析引擎,只需要把CTAS(create table A as select xxx from B…)的SQL通过接口传给资产平台,平台可解析出B表数据流转至A表的关系。当解析全量的任务SQL后,就会形成一个完整的血缘关系网络,可以查看任意当前表、上游血缘表、下游影响表之间的关系。
    • 目前支持Hive SQL、Libra SQL、TiDB SQL、Oracle SQL、Greenplum SQL、Impala SQL、ADB PostgreSQL、MySQL、SQL Server、Trino SQL、Hana SQL的解析。对于其他SQL类型,只要语法差别不大,均可快速适配。
    • 对于系统无法自动解析出来的血缘关系,支持用户在页面进行手动维护。
  • 血缘图谱:
    • 对于血缘解析出来的结果,已网络图谱的方式直观展示。用户可拖动背景或者右下角的导航器进行定位查看。图谱支持居中、放大、缩小、下载图片等操作。
    • 表级血缘:会默认展示当前表上下游所有层级的数据。
      • 对于当前表,右键点击可插入血缘表(上游表)、影响表(下游表)。
      • 对于影响表,可右键点击继续插入影响表(下游表)。
      • 对于血缘表,可右键点击继续插入血缘表(上游表)。
      • 手动添加的表/字段,需要存在于数据资产平台,否则无法添加。
    • 字段级血缘:考虑到每张表的字段数量较多,全部展示出所有字段血缘关系的效果并不理想,因此默认只展示当前表的字段信息。
      • 需要查看具体某个字段的血缘时,通过点击该字段,图谱会显示出该字段的上下游血缘链路。通过右键单击字段名,可插入上下游关系字段。
  • 常见Q&A:
    • Q1. 血缘解析结果准不准?
    • A1. 对于表级血缘,血缘解析率接近100%。字段级血缘因为其复杂性,无法保障100%的解析率。遇到未解析出来的情况,如果是标准问题,可通过迭代支持。
    • Q2. 能不能支持跨源解析?
    • A2. 目前的解析功能,均是依赖开发的任务SQL进行解析的。后续会迭代数据同步场景下的血缘解析,比如一张MySQL业务表同步至数仓Hive ODS层的血缘关系。
    • Q3. 能不能自动解析离线开发平台中那些表的血缘关系?
    • A3. 已支持。前提是需要在资产平台引入离线平台的项目数据源(meta),并完成基础的元数据同步(对于部署升级的客户,会存在增量SQL清理历史血缘数据的问题,需要等待任务下次运行完成后,才可查看血缘)。
    • Q4. 血缘关系和影响关系、ER图这些概念的区别?
    • A4.
    • 和影响关系的区别:在资产平台,血缘关系其实就是包含了影响关系的概念。有些厂商会将上游表的关系称为血缘关系,将下游表的关系称为影响关系,其实就是一个概念。只是为了放大宣传效果。
    • 和ER图的区别:血缘关系关注的是表与表之间、字段与字段之间的数据流转关系;ER图关注的是表与表之间的主外键关系。

任务依赖

  • 任务依赖展示离线/实时任务和数据表的关系(产出该表、依赖该表)。

image-20221117201542214

  • 如果存在任务依赖关系,用户可以在该页面进入任务详情页。

image-20221117201604024

版本变更

  • 记录每张表元数据变更的版本快照,支持任意版本之间的差异比对。

image-20221117174506303

  • 版本生成原理:每次元数据同步时,或者元数据维护时,均会和已有元数据内容进行比较。如发现内容发生变更,则会自动生成一个最新的版本号。
  • 版本比对内容:业务属性变更、表结构变更。

Kafka详情

支持查看分区查询和数据预览信息。

image-20221121150357239

tip

由于Kafka topic的每条数据的字段不一致,无法合理展示字段,所以详情页不展示表结构信息

离线任务详情

  • 入口:通过查询页中的「离线任务」图标或「数据表详情-任务依赖」进入离线任务详情页。
  • 以离线任务为粒度,展示任务信息、任务血缘以及实例分析。

image-20221117202322446

任务信息

  • 支持查看离线任务中的SQL语句内容。

image-20221117202849685

血缘关系

  • 右上角可以筛选资产类型,查看和离线任务关联的全链路血缘关系。

image-20221117202917781

实例分析

  • 时间范围:近7天、近1个月、近半年、近1年。

  • 实例分析统计趋势图为曲线图,横轴为日期、纵轴为运行时间(单位:分钟)。

    • 范围为近7天/1个月时:日期粒度为天。

    • 范围为近半年/1年时:日期粒度为月。

image-20221117210329177

实时任务详情

  • 入口:通过查询页中的「实时任务」图标或「数据表详情-任务依赖」进入离线任务详情页。
  • 以实时任务为粒度,展示任务信息。

任务信息

  • 支持查看实时任务的SQL语句内容。

image-20221118114925365

API详情

  • 以API为粒度,展示API信息、API血缘。

API信息

  • 支持查看API基础信息。

image-20221118115828436

血缘关系

  • 右上角可以筛选资产类型,查看和API关联的全链路血缘关系。

image-20221118115812042

智能标签详情

  • 以标签为粒度,展示标签信息、标签血缘。

标签信息

  • 支持查看标签基础信息。

image-20221118134842290

tip

智能标签采集到的任务,以前会出现相同名称的标签无法区分属于哪个实体的问题,目前已支持对标签根据实体进行区分,支持查看所属实体信息。

血缘关系

  • 支持查看标签到标签的血缘关系,后续会实现表到标签的血缘,打通标签血缘链路。

image-20221118134825068

指标详情

  • 以指标为粒度,展示指标信息、指标血缘。

指标信息

  • 支持查看指标基础信息。

image-20221118145359028

血缘关系

  • 支持查看指标到指标的血缘关系,后续会实现表到指标的血缘,打通指标血缘链路。

image-20221118145420778