2023年8月更新日志
发布时间:2023-08-16
功能新增
支持基于指标结果表生成的新模型做行更新(上线版本:V5.3)
背景: 绩效考核场景下,存在根据模型1创建指标1,并将指标1的结果作为模型2的数据源表,需要实现模型1的表进行行更新后,指标1和模型2的指标均可进行行更新
功能: 整体实现方案:指标提供行更新状态跟进接口,业务通过接口调用状态,再调用下一个模型进行更新
- 数据模型设置的表选自hive catalog时,不需要设置行更新、更新方式可修改;选择hudi catalog时,需要设置行更新
- 数据源管理中仅展示hudi数据源
- 需要行更新的表,设置删除方式可选择两种:
(1)物理删除:表的数据删除是直接做删除。此时需要保证表开启CDC或文件存储方式是op_key_only/data_before_after,否则,系统将无法追踪到变更前后的数据差异
(2)逻辑删除:表的数据删除是以某一删除字段的值变化做区分。此时需要指定删除字段,以及对应取值 - 对应的查询各指标行更新进度可通过接口查询:
- 入参:表信息、请求id、行更新涉及模型标识/指标标识/API名称
- 出参:模型/指标/API针对所需表&所需请求批次的更新状态、表数据更新开始时间、表数据更新结束时间
- 行更新相关的指标hudi表的建表语句做相应调整
功能优化
行更新性能优化(上线版本:V5.3)
第一版行更新是以分区为单位进行优化,整体速度较慢,本次优化定位到分区内的特定行进行优化,提升整体行更新效率。