Skip to main content

数据源管理

数据源引入

支持的类型

  • 目前数据资产支持的数据源包括:Hive(1.x/2.x)、SparkThrift2.x、MySQL、Oracle、SQLServer、TiDB、HBase、Phoenix5.x、Vertica、Kafka(0.10/2.x)、Inceptor、Doris、MongoDB、ElasticSearch、SAP HANA(1.x/2.x)、Impala、Greenplum、DB2、PostgreSQL、Hive3.x(Apache)、Hive3.x(CDP)、TDSQL、StarRocks、tbds_hive、ADB PostgreSQL、Hashdata、Trino、OushuDB、HBase(MRS)、Maxcompute、KingBaseES8、GaussDB、自定义类型。
  • 以下是离线不支持的数据源类型(资产已做了数据源同步的功能,只要开放外部引入数据源入口,即可正常使用):HBase1.x、HBase(MRS)、Phoenix5.x、Vertica、Kafka(0.10/2.x)、MongoDB、ElasticSearch、SAP HANA(1.x/2.x)、Impala、DB2、PostgreSQL、TDSQL、Maxcompute、KingBaseES8、GaussDB。
  • 支持开启Kerberos的数据源:Hive(1.x/2.x)、SparkThrift2.x、HBase、Phoenix5.x、Kafka(0.10/2.x)、Inceptor、Impala、Hive3.x(Apache)、Hive3.x(CDP)。
  • 支持开启SSL的数据源:ElasticSearch、Hive3.x(CDP)。
  • 自定义类型:这类特殊的数据源,用户通过手动定义元数据结构,上传元数据文件,可实现线下非结构数据的元数据线上化管理。
数据源类型元数据视图同步数据质量实时同步血缘解析SQL Parser数据模型数据治理数据安全meta数据源自动授权备注
Hive1.x
Hive2.x
Hive3.x(Apache)√(5.3)√(4.3)√(5.3)√(5.3)√(5.3)√(5.3)
Hive3.x(CDP)√(5.3)√(5.1)√(5.3)√(5.3)√(5.3)√(5.3)
Hive(MRS)√(5.3)√(5.3)√(5.3)√(5.3)√(5.3)√(5.3)
tbds_hive√(6.0)√(6.0)√(6.0)√(6.0)
SparkThrift2.x√(6.2)
MySQL√(6.2)√(5.3)
Oracle√(6.0)√(6.0)
SQLServer√(6.0)
TiDB√(5.3)
HBase 1.x不支持数据标准、数据脱敏、分级分类
HBase(MRS)√(5.1)不支持数据标准、数据脱敏、分级分类
Phoenix5.x
Vertica
Kafka0.10
Kafka2.x
Inceptor√(非标准方案)√(5.3)离线为生成meta数据源
Doris√(6.2)√(6.2)√(6.2)√(6.2)√(6.2)√(6.2)数据质量不支持小文件治理
MongoDB
ElasticSearch
SAP HANA1.x√(4.3)√(5.1)√(4.3)√(4.3)
SAP HANA2.x√(5.0)√(5.1)√(5.1)√(5.0)
Impala√(5.1)√(5.1)√(5.1)
Greenplum√(5.2)√(6.0)√(5.2)√(5.2)√(5.2)
DB2√(5.3)
PostgreSQL√(5.3)√(5.3)√(5.3)
ADB PostgreSQL√(5.2)√(5.2)√(5.2)√(5.2)√(5.3)√(5.2)
TDSQL
StarRocks√(5.3)√(5.3)√(6.2)√(5.3)
Hashdata√(5.3)√(5.3)√(5.3)√(5.3)
Maxcompute
KingBaseES8
Trino√(5.3)√(5.2)√(5.3)√(5.3)√(5.3)√(6.0)√(5.3)√(5.3)trino质量connector支持:Hive、MySQL、Oracle、PostgreSQL、SQLServer、TDSQL、Inceptor
GaussDB
OushuDB√(6.0)√(6.0)√(6.0)√(6.0)√(6.0)
tip

血缘解析支持的数据源对应的meta数据源,都支持对资产平台的自动授权。

连接方式

  • 各个数据源的连接方式会有些差异,大部分均可通过JDBC完成连接。

  • 第一次连接成功的数据源,连接状态显示为正常,元数据同步时采用实时查询的方式获取库表名称。

    tip

    数据源引入方式优化后,不再进行初始化操作去同步数据源中的库表名称,而是采用实时查询的方式获取库表名称。

  • 权限说明:为支撑平台需要采集的元数据内容,对不同数据源类型JDBC账号权限的诉求存在差异。JDBC账号至少需要包含如下权限,详见表格:

数据源类型账号需要开通Select权限的表
Hive/SparkThrift- 需要同步的所有表
MySQL- 需要同步的所有表 - INFORMATION_SCHEMA.TABLES
Oracle- 需要同步的所有表 - SYS.ALL_IND_COLUMNS - SYS.ALL_INDEXES - SYS.ALL_TAB_COLUMNS - SYS.ALL_COL_COMMENTS - SYS.ALL_TABLES - SYS.ALL_TAB_COMMENTS - SYS.ALL_CONS_COLUMNS - SYS.ALL_CONSTRAINTS - SYS.ALL_OBJECTS - SYS.ALL_PART_KEY_COLUMNS - SYS.DBA_USERS
SQLServer- 需要同步的所有表 - SYS.TABLES - SYS.SYSOBJECTS - SYS.SYSINDEXES - SYS.EXTENDED_PROPERTIES - SYS.COLUMNS - SYS.TYPES - SYS.EXTENDED_PROPERTIES - SYS.SYSCOMMENTS - SYS.INDEXES - SYS.SYSOBJECTS - SYS.SYSCOLUMNS - SYS.INDEX_COLUMNS - SYS.OBJECTS - SYS.PARTITION_SCHEMES - SYS.DESTINATION_DATA_SPACES - SYS.DATA_SPACES - SYS.PARTITIONS - SYS.PARTITION_FUNCTIONS - INFORMATION_SCHEMA.TABLE_CONSTRAINTS - INFORMATION_SCHEMA.KEY_COLUMN_USAGE
TiDB- 需要同步的所有表 - INFORMATION_SCHEMA.PARTITIONS
HBase- 需要同步的所有表
Phoenix5.x- 需要同步的所有表 - SYSTEM.CATALOG
Vertica- 需要同步的所有表 - V_CATALOG.TABLES - V_CATALOG.COMMENTS - V_MONITOR.PROJECTION_STORAGE
Flink- 同步的实时计算中的FlinkSql表,不是一个数据库,只是可以将Flink建表抽象到资产中,不需要额外权限
Sap1.x/Sap2.x- 需要同步的所有表 - SYS.M_DATABASE - SYS.M_TABLES - TABLES - SYS.M_CS_TABLES - TABLE_COLUMNS - INDEX_COLUMNS - OBJECT_DEPENDENCIES - VIEWS - VIEW_COLUMNS - OBJECT_DEPENDENCIES
Doris- 需要同步的所有表 - INFORMATION_SCHEMA.TABLES
Inceptor- 需要同步的所有表
MongoDB- 需要同步的所有表
Elasticsearch- 需要同步的所有索引
Impala- 需要同步的所有表
Greenplum- 需要同步的所有表 - PG_STAT_LAST_OPERATION - PG_CLASS - INFORMATION_SCHEMA.COLUMNS
DB2- 需要同步的所有表 - SYSCAT.TABLES - SYSIBMADM.TBSP_UTILIZATION - SYSIBMADM.CONTAINER_UTILIZATION
PostgreSQL- 需要同步的所有表
Hive3.x(Apache)- 需要同步的所有表
Hive3.x(CDP)- 需要同步的所有表
TDSQL- 需要同步的所有表 - INFORMATION_SCHEMA.TABLES
StarRocks- 需要同步的所有表
tip

如需使用资产平台的「预览数据」功能,建议给数据源连接账号开通所有表的查询权限

自动引入

离线创建项目所生成的meta数据源,资产将自动引入进行元数据的查看和管理,同样地,当离线删除项目时,资产中自动引入的meta数据源将自动去除meta标识。

质量项目授权

  • 需求背景:数据资产和数据质量平台合并后,由于数据质量中有项目的概念而资产中没有,因此引入数据源时需要额外对质量项目进行授权。

  • 功能场景:数据源授权给数据质量项目后,可以在授权项目中对该数据源中的表进行质量校验。

image-20221117152434682

tip

质量和资产的数据源支持在短期内无法做到互相覆盖,在数据源中心授权时取并集,在产品内部作区分,需要对质量项目单独授权。