Skip to main content

2023年8月更新日志

发布时间:2023-08-16

功能新增

支持基于指标结果表生成的新模型做行更新(上线版本:V5.3)

背景: 绩效考核场景下,存在根据模型1创建指标1,并将指标1的结果作为模型2的数据源表,需要实现模型1的表进行行更新后,指标1和模型2的指标均可进行行更新

功能: 整体实现方案:指标提供行更新状态跟进接口,业务通过接口调用状态,再调用下一个模型进行更新

  1. 数据模型设置的表选自hive catalog时,不需要设置行更新、更新方式可修改;选择hudi catalog时,需要设置行更新
  2. 数据源管理中仅展示hudi数据源
  3. 需要行更新的表,设置删除方式可选择两种:
    (1)物理删除:表的数据删除是直接做删除。此时需要保证表开启CDC或文件存储方式是op_key_only/data_before_after,否则,系统将无法追踪到变更前后的数据差异
    (2)逻辑删除:表的数据删除是以某一删除字段的值变化做区分。此时需要指定删除字段,以及对应取值
  4. 对应的查询各指标行更新进度可通过接口查询:
  • 入参:表信息、请求id、行更新涉及模型标识/指标标识/API名称
  • 出参:模型/指标/API针对所需表&所需请求批次的更新状态、表数据更新开始时间、表数据更新结束时间
  1. 行更新相关的指标hudi表的建表语句做相应调整

功能优化

行更新性能优化(上线版本:V5.3)

第一版行更新是以分区为单位进行优化,整体速度较慢,本次优化定位到分区内的特定行进行优化,提升整体行更新效率。