新建多表比对规则
新建规则的入口位于规则配置-新建监控规则-多表比对规则,点击之后可进入新建规则的流程。
一、选择左侧表
在下拉列表中选择需要比对的数据源、表,也可以直接输入表名进行搜索。对于存在分区的表,可配置系统变量或直接选择已有分区进行校验。
对于Hive和MaxCompute数据源,需要比对的数据也可以是通过自定义SQL输出的临时查询结果,并不一定要是存储的结果表。
二、选择右侧表
操作逻辑同第一步。
只能选择同一数据源的2张表或2个分区进行数据对比,不支持跨数据源的对比。
三、配置比对规则
字段映射:选择两张表中需要参与数据比对的字段,并配置字段映射关系。可点击同行映射或同名映射快速完成配置。
选择逻辑主键:逻辑主键由用户手动在字段名之前勾选,配置了逻辑主键之后系统才能唯一标识一条数据并完成每个数值的对比。
比对规则:
记录数差异:对比左右表的总记录数,差距小于阈值时,计为成功匹配。
数值差异百分比:对比左右表的数值型数据时,差距百分比小于阈值时,计为2个数值相等。
数值差异绝对值:对比左右表的数值型数据时,数值差距的绝对值小于阈值时,计为2个数值相等。
忽略小数点:在数值比对时,忽略小数点后N位。
字符不区分大小写:在比对字符串型数据时,不区分大小写;
空值与NULL等价:认为空值与NULL值是相等的;
是否强规则:强规则校验未通过或运行失败时,关联的离线任务会置为失败
四、配置调度属性
- 调度周期:可选择天、周、月、小时的调度周期,也可以选择手动触发
- 告警配置:可支持邮件、短信、钉钉机器人。(钉钉机器人的配置方法请参考钉钉官方帮助文档: 钉钉群机器人是什么)
- 任务关联
功能操作:可选择当前用户所在的任意「租户-产品-项目」中已提交的任务。其中的「产品」,目前只支持离线开发平台。
实现逻辑: - 当质量规则关联离线任务后,周期运行质量规则需要满足:1)达到规则自身的「调度周期」配置时间;2)关联的离线任务运行成功; - 当质量规则运行完成后,会给关联离线任务返回「规则强弱」和「规则运行结果」信息,如果是强规则校验未通过/运行失败,则关联的离线任务会置为失败;
功能目的:可有效避免问题数据的落地,阻塞问题数据流入下游。