脏数据处理
在数据同步执行的过程中可能会出现因主键冲突、格式转换错误等各种原因造成部分数据无法正常写入,不能被正常写入的数据被称为"脏数据
"。
支持对脏数据的配置、保存和管理
脏数据的配置
在数据同步任务的通道控制步骤中,可配置是否需要记录脏数据,并可指定存储脏数据的表名、生命周期。 同时支持错误数据比例的配置,当任务结束后,系统对错误数据的占比进行统计,超过设定的阈值时,此任务被置为失败。
脏数据的查看
在任务管理-脏数据管理模块中可以查看脏数据的产生趋势、产生脏数据最多的任务,以及每一张产生脏数据表的情况。
- 脏数据产生趋势
选中某个任务后,可以查看此任务在最近一段时间产生脏数据的数量,支持最近3天、7天、30天、60天的数据查看。
- 脏数据产生TOP30任务
通过观察产生脏数据数量较大的任务,可以针对性的排查此任务的配置信息、源数据库的数据质量等问题,及时解决问题。
- 脏数据表管理
脏数据表的管理与普通数据表管理类似,区别在于以下几个方面:
- 相关任务:列出此表对应的任务名称,方便排查任务信息;
- 脏数据概览:展现最近一段时间此表的脏数据量趋势;
- 原因分析:系统对脏数据造成的异常自动统计,原因有:空指针、主键冲突、类型转换、其他4种,如果某类原因占比较大,您可以通过对源数据库的数据进行针对性的分析;
- 脏数据的趋势图不是实时统计的,是系统后台定时统计的
- 脏数据原因分析中列出的数据只是样例,不是全部的脏数据明细
- 脏数据的错误阈值配置不是精确统计的,系统后台定时统计脏数据数量,若同步的数据量较小,且脏数据的阈值配置的较小,实际同步的脏数据量可能大于配置参数