Skip to main content

数据源管理

数据源管理用于对指标产品内用到的数据源表的基本信息进行管理,当前主要用于行更新设置及其更新记录的指标更新结果查询。

info

行更新功能仅旗舰版支持。

note

仅Trino引擎涉及该模块的展示及应用,其他引擎暂无此模块

行更新触发方式

  1. 目前平台支持定时更新方式对指标结果进行行更新。新增一个行更新数据源表时,系统默认每30分钟汇总一次更新内容,对下游数据进行批量更新。可通过表编辑修改更新频率。若变更数据源中存在紧急数据需要立即进行下游数据更新,可通过表的行更新操作或接口日志的更新操作进行
  2. 对于需要进行行更新的表,请先更新数据源,然后根据表详情中提供的接口信息向指标平台传入变更数据的开始时间、结束时间,系统将根据时间区间去hudi表中查询hoodie_commit_time在传入时间区间的数据作为变更内容对后续结果进行行更新。
tip

系统暂不支持对自定义指标进行行更新,若自定义指标用到的数据源表存在历史数据变更,请通过「补数据」功能进行全分区数据更新

行更新方案概述

  1. 系统根据传入条件判断变更数据范围
  2. 根据变更数据范围依次确定下游指标受影响行、结果表分区
  3. 历史数据删除:落表模型将直接根据记录主键对相关行做删除,指标表将根据维度对相关行做删除
  4. 变更数据计算与写入:在原有SQL基础上,筛选出变更记录相关的数据,进行数据计算
  5. 若行更新表涉及的指标/模型进行了指标/模型共享,共享项目的后续指标也将同步更新
tip

若行更新表是右关联其他表,请保证行更新内容对下游指标不会产生新的维度,否则下游结果更新将存在重复计算情况。 举例:A表 left join B表,B表为需要行更新的表原表内数据如下:

此时B表新增一条数据,系统将不处理原来的空值记录,直接新增一条记录,如下图所示:

行更新进度查询

进入表详情窗口,点击「接口日志」tab,找到对应的接口记录,查看其具体的指标更新进度。

若存在更新失败的内容,当前批次的更新内容将同步回滚,可点击任意接口记录的「重试」操作,重新跑数据。