数据源管理
数据源引入
支持的类型
- 目前数据资产支持的数据源包括:Hive(1.x/2.x)、SparkThrift2.x、MySQL、Oracle、SQLServer、TiDB、HBase、Phoenix5.x、Vertica、Kafka(0.10/2.x)、Inceptor、Doris、MongoDB、ElasticSearch、SAP HANA(1.x/2.x)、Impala、Greenplum、DB2、PostgreSQL、Hive3.x(Apache)、Hive3.x(CDP)、TDSQL、StarRocks、tbds_hive、ADB PostgreSQL、Hashdata、Trino、OushuDB、HBase(MRS)、Maxcompute、KingBaseES8、GaussDB、自定义类型。
- 以下是离线不支持的数据源类型(资产已做了数据源同步的功能,只要开放外部引入数据源入口,即可正常使用):HBase1.x、HBase(MRS)、Phoenix5.x、Vertica、Kafka(0.10/2.x)、MongoDB、ElasticSearch、SAP HANA(1.x/2.x)、Impala、DB2、PostgreSQL、TDSQL、Maxcompute、KingBaseES8、GaussDB。
- 支持开启Kerberos的数据源:Hive(1.x/2.x)、SparkThrift2.x、HBase、Phoenix5.x、Kafka(0.10/2.x)、Inceptor、Impala、Hive3.x(Apache)、Hive3.x(CDP)。
- 支持开启SSL的数据源:ElasticSearch、Hive3.x(CDP)。
- 自定义类型:这类特殊的数据源,用户通过手动定义元数据结构,上传元数据文件,可实现线下非结构数据的元数据线上化管理。
数据源类型 | 元数据 | 视图同步 | 数据质量 | 实时同步 | 血缘解析 | SQL Parser | 数据模型 | 数据治理 | 数据安全 | meta数据源自动授权 | 备注 |
---|---|---|---|---|---|---|---|---|---|---|---|
Hive1.x | √ | √ | √ | √ | √ | √ | √ | ||||
Hive2.x | √ | √ | √ | √ | √ | √ | √ | √ | |||
Hive3.x(Apache) | √(5.3) | √(4.3) | √(5.3) | √(5.3) | √(5.3) | √ | √ | √(5.3) | |||
Hive3.x(CDP) | √(5.3) | √(5.1) | √(5.3) | √(5.3) | √(5.3) | √ | √ | √(5.3) | |||
Hive(MRS) | √(5.3) | √(5.3) | √(5.3) | √(5.3) | √(5.3) | √ | √ | √(5.3) | |||
tbds_hive | √(6.0) | √(6.0) | √(6.0) | √(6.0) | |||||||
SparkThrift2.x | √ | √(6.2) | √ | √ | √ | √ | √ | √ | √ | √ | |
MySQL | √ | √ | √ | √ | √(6.2) | √ | √ | √(5.3) | |||
Oracle | √ | √(6.0) | √ | √ | √ | √ | √ | √(6.0) | |||
SQLServer | √ | √ | √ | √ | √ | √ | √(6.0) | ||||
TiDB | √ | √ | √ | √ | √ | √ | √(5.3) | ||||
HBase 1.x | √ | 不支持数据标准、数据脱敏、分级分类 | |||||||||
HBase(MRS) | √(5.1) | 不支持数据标准、数据脱敏、分级分类 | |||||||||
Phoenix5.x | √ | ||||||||||
Vertica | √ | ||||||||||
Kafka0.10 | √ | √ | |||||||||
Kafka2.x | √ | √ | |||||||||
Inceptor | √ | √ | √(非标准方案) | √ | √ | √ | √ | √(5.3) | 离线为生成meta数据源 | ||
Doris | √ | √(6.2) | √(6.2) | √(6.2) | √(6.2) | √(6.2) | √(6.2) | 数据质量不支持小文件治理 | |||
MongoDB | √ | ||||||||||
ElasticSearch | √ | ||||||||||
SAP HANA1.x | √(4.3) | √(5.1) | √(4.3) | √(4.3) | |||||||
SAP HANA2.x | √(5.0) | √(5.1) | √(5.1) | √(5.0) | |||||||
Impala | √(5.1) | √(5.1) | √(5.1) | ||||||||
Greenplum | √(5.2) | √(6.0) | √(5.2) | √(5.2) | √(5.2) | ||||||
DB2 | √(5.3) | ||||||||||
PostgreSQL | √(5.3) | √(5.3) | √(5.3) | ||||||||
ADB PostgreSQL | √(5.2) | √(5.2) | √(5.2) | √(5.2) | √(5.3) | √ | √ | √(5.2) | |||
TDSQL | √ | ||||||||||
StarRocks | √(5.3) | √(5.3) | √ | √(6.2) | √ | √ | √(5.3) | ||||
Hashdata | √(5.3) | √(5.3) | √(5.3) | √ | √ | √(5.3) | |||||
Maxcompute | √ | ||||||||||
KingBaseES8 | √ | ||||||||||
Trino | √(5.3) | √(5.2) | √(5.3) | √(5.3) | √(5.3) | √(6.0) | √(5.3) | √(5.3) | trino质量connector支持:Hive、MySQL、Oracle、PostgreSQL、SQLServer、TDSQL、Inceptor | ||
GaussDB | √ | ||||||||||
OushuDB | √(6.0) | √(6.0) | √(6.0) | √(6.0) | √ | √ | √(6.0) |
tip
血缘解析支持的数据源对应的meta数据源,都支持对资产平台的自动授权。
连接方式
各个数据源的连接方式会有些差异,大部分均可通过JDBC完成连接。
第一次连接成功的数据源,连接状态显示为正常,元数据同步时采用实时查询的方式获取库表名称。
tip数据源引入方式优化后,不再进行初始化操作去同步数据源中的库表名称,而是采用实时查询的方式获取库表名称。
权限说明:为支撑平台需要采集的元数据内容,对不同数据源类型JDBC账号权限的诉求存在差异。JDBC账号至少需要包含如下权限,详见表格:
数据源类型 | 账号需要开通Select权限的表 |
---|---|
Hive/SparkThrift | - 需要同步的所有表 |
MySQL | - 需要同步的所有表 - INFORMATION_SCHEMA.TABLES |
Oracle | - 需要同步的所有表 - SYS.ALL_IND_COLUMNS - SYS.ALL_INDEXES - SYS.ALL_TAB_COLUMNS - SYS.ALL_COL_COMMENTS - SYS.ALL_TABLES - SYS.ALL_TAB_COMMENTS - SYS.ALL_CONS_COLUMNS - SYS.ALL_CONSTRAINTS - SYS.ALL_OBJECTS - SYS.ALL_PART_KEY_COLUMNS - SYS.DBA_USERS |
SQLServer | - 需要同步的所有表 - SYS.TABLES - SYS.SYSOBJECTS - SYS.SYSINDEXES - SYS.EXTENDED_PROPERTIES - SYS.COLUMNS - SYS.TYPES - SYS.EXTENDED_PROPERTIES - SYS.SYSCOMMENTS - SYS.INDEXES - SYS.SYSOBJECTS - SYS.SYSCOLUMNS - SYS.INDEX_COLUMNS - SYS.OBJECTS - SYS.PARTITION_SCHEMES - SYS.DESTINATION_DATA_SPACES - SYS.DATA_SPACES - SYS.PARTITIONS - SYS.PARTITION_FUNCTIONS - INFORMATION_SCHEMA.TABLE_CONSTRAINTS - INFORMATION_SCHEMA.KEY_COLUMN_USAGE |
TiDB | - 需要同步的所有表 - INFORMATION_SCHEMA.PARTITIONS |
HBase | - 需要同步的所有表 |
Phoenix5.x | - 需要同步的所有表 - SYSTEM.CATALOG |
Vertica | - 需要同步的所有表 - V_CATALOG.TABLES - V_CATALOG.COMMENTS - V_MONITOR.PROJECTION_STORAGE |
Flink | - 同步的实时计算中的FlinkSql表,不是一个数据库,只是可以将Flink建表抽象到资产中,不需要额外权限 |
Sap1.x/Sap2.x | - 需要同步的所有表 - SYS.M_DATABASE - SYS.M_TABLES - TABLES - SYS.M_CS_TABLES - TABLE_COLUMNS - INDEX_COLUMNS - OBJECT_DEPENDENCIES - VIEWS - VIEW_COLUMNS - OBJECT_DEPENDENCIES |
Doris | - 需要同步的所有表 - INFORMATION_SCHEMA.TABLES |
Inceptor | - 需要同步的所有表 |
MongoDB | - 需要同步的所有表 |
Elasticsearch | - 需要同步的所有索引 |
Impala | - 需要同步的所有表 |
Greenplum | - 需要同步的所有表 - PG_STAT_LAST_OPERATION - PG_CLASS - INFORMATION_SCHEMA.COLUMNS |
DB2 | - 需要同步的所有表 - SYSCAT.TABLES - SYSIBMADM.TBSP_UTILIZATION - SYSIBMADM.CONTAINER_UTILIZATION |
PostgreSQL | - 需要同步的所有表 |
Hive3.x(Apache) | - 需要同步的所有表 |
Hive3.x(CDP) | - 需要同步的所有表 |
TDSQL | - 需要同步的所有表 - INFORMATION_SCHEMA.TABLES |
StarRocks | - 需要同步的所有表 |
tip
如需使用资产平台的「预览数据」功能,建议给数据源连接账号开通所有表的查询权限
自动引入
离线创建项目所生成的meta数据源,资产将自动引入进行元数据的查看和管理,同样地,当离线删除项目时,资产中自动引入的meta数据源将自动去除meta标识。
质量项目授权
需求背景:数据资产和数据质量平台合并后,由于数据质量中有项目的概念而资产中没有,因此引入数据源时需要额外对质量项目进行授权。
功能场景:数据源授权给数据质量项目后,可以在授权项目中对该数据源中的表进行质量校验。
tip
质量和资产的数据源支持在短期内无法做到互相覆盖,在数据源中心授权时取并集,在产品内部作区分,需要对质量项目单独授权。