数据库拾取
功能背景
每个企业都已经落地了大量的数据,而这些数据,即使是基于最基础开发共识,也会存在很多共性的内容。 如果能将这些存量数据中共性、标准的信息拾取出来,可以大大的降低标准体系建设和落地的难度。
拾取原理
- 拾取数据标准:系统会遍历所选择的数据源类型中的所有字段名,提取出满足重复条件的字段名,作为数据标准。
- 拾取词根:系统会遍历所选择的数据源类型中的所有字段名,将字段名和字段注释进行分词处理后,提取出满足重复条件的词根。
如何拾取
- 新建拾取:
- 选择拾取类型:词根、数据标准。
- 选择拾取来源:资产平台已接入的SparkThrift/Hive/MySQL/Oracle/SQLServer/TiDB类型下的所有字段。
- 拾取条件:配置重复数,系统拾取出满足重复数量的字段名/词根。
- 拾取记录-数据标准:
- 展示所选数据源类型中满足重复条件的字段名和字段注释,并按重复顺序倒序排列(重复数量越高,说明该字段越有代表性,越能作为数据标准)。
- 拾取的字段名对应数据标准的英文名称和英文缩写,拾取的字段注释对应数据标准的中文名称(可二次修改)。
- 引用字段时,会根据上面的对应关系匹配已存在的数据标准,来提示该标准是否已存在,如不存在则默认新建一个数据标准。
- 拾取记录-词根:
- 展示所选数据源类型中满足重复条件的词根简称和词根中文名,并按重复顺序倒序排列(重复数量越高,说明该词根越有代表性,越能作为词根使用)。
- 引用词根时,会匹配已存在的词根字典,来提示该词根是否已存在,如不存在则默认新建一个词根。