单表校验规则执行说明
本节主要说明校验规则的触发时机、运行原理、运行过程、字段类型转换规则等内容;
一、校验规则的触发
校验规则的触发包括:系统周期性的触发执行、用户手动触发执行、远程触发执行三种; 触发规则运行后可在任务查询中查看本次运行的结果。
二、校验规则的运行原理
数据质量进行数据校验的基本逻辑:是将用户的规则配置转换为一条或一组SQL代码,提交到各数据源运行并获取结果。因此数据质量不需要从外部数据库中同步原始数据,仅需要JDBC连接即可,因此用户在配置调度周期时,需根据数据库的负载合理配置执行时间。
三、校验规则的状态转换
如上图所示,校验规则的运行过程将会经过多个状态的转换。 当发生运行失败时,系统会打印失败日志。失败可能是由于JDBC无法连接、表名不存在、字段不存在等情况导致的。 当发生校验未通过时,系统会告知未通过的原因。未通过的原因一般是规则统计结果和期望值不匹配
四、字段类型转换
字段类型转换的应用场景: 在某些情况下,数据表内的数据可能出现数据本身与其字段类型不匹配的情况,例如在Hadoop、MaxCompute等大数据存储场景下很多字段都会被存储为string类型,但其实际存储的却是数值、日期。 数据质量支持对string、varchar等任意类型配置任意统计函数,因此就可能出现字段类型转换的情况,每个类型的隐式转换规则如下图: