Skip to main content

数据库拾取

功能背景

每个企业都已经落地了大量的数据,而这些数据,即使是基于最基础开发共识,也会存在很多共性的内容。 如果能将这些存量数据中共性、标准的信息拾取出来,可以大大的降低标准体系建设和落地的难度。

拾取原理

  • 拾取数据标准:系统会遍历所选择的数据源类型中的所有字段名,提取出满足重复条件的字段名,作为数据标准。
  • 拾取词根:系统会遍历所选择的数据源类型中的所有字段名,将字段名和字段注释进行分词处理后,提取出满足重复条件的词根。

如何拾取

  • 新建拾取:
    • 选择拾取类型:词根、数据标准。
    • 选择拾取来源:资产平台已接入的SparkThrift/Hive/MySQL/Oracle/SQLServer/TiDB类型下的所有字段。
    • 拾取条件:配置重复数,系统拾取出满足重复数量的字段名/词根。
  • 拾取记录-数据标准:
    • 展示所选数据源类型中满足重复条件的字段名和字段注释,并按重复顺序倒序排列(重复数量越高,说明该字段越有代表性,越能作为数据标准)。
    • 拾取的字段名对应数据标准的英文名称和英文缩写,拾取的字段注释对应数据标准的中文名称(可二次修改)。
    • 引用字段时,会根据上面的对应关系匹配已存在的数据标准,来提示该标准是否已存在,如不存在则默认新建一个数据标准。
  • 拾取记录-词根:
    • 展示所选数据源类型中满足重复条件的词根简称和词根中文名,并按重复顺序倒序排列(重复数量越高,说明该词根越有代表性,越能作为词根使用)。
    • 引用词根时,会匹配已存在的词根字典,来提示该词根是否已存在,如不存在则默认新建一个词根。