脏数据记录

脏数据管理

在数据同步任务中，可开启错误记录管理，开启后，任务会将数据同步过程中的错误数据写入指定的Hive表（可指定表名、生命周期）。在数据同步任务的周期执行过程中，每个实例都会将脏数据写入一个分区，每个实例一个分区。脏数据表采用二级分区形式，第一级为任务名称、第二级为同步时间（Unix时间戳格式），用户可在「运维中心-脏数据管理」模块查看表内的数据和原因。

目前临时运行、周期调度、补数据操作中都会将脏数据写入Hive表。用户在页面点击运行时，可能会发现脏数据不为0的情况，需通过执行补数据才能查看脏数据的值与报错原因。

脏数据表根据不同的作业类型会存在不同的命名规则，便于客户区分：

脏数据表的命名规则：dirty_任务iD

脏数据临时运行分区的命名规则：task_name=任务ID_test_instance/time=时间戳脏数据周期实例分区的命名规则：task_name=任务ID_scheduled_instance/time=时间戳脏数据手动实例分区的命名规则：task_name=任务ID_manual_instance/time=时间戳脏数据补数据实例分区的命名规则：task_name=任务ID_temporary_instance/time=时间戳

脏数据数量控制

支持对于脏数据的自定义监控和告警，包括对脏数据最大记录数阈值，当传输过程出现的脏数据大于指定的数量，则报错退出。如果不填，脏数据将打印在日志中，限制条数为0；如果填写0，脏数据会记录在脏数据表（需要配置脏数据表），限制条数为0；如果填写-1，脏数据记录在脏数据表（需要配置脏数据表），不限制条数

支持对于脏数据记录比例的配置，当任务执行结束后系统才会统计脏数据占总的同步数据的占比，超过阈值将任务置为失败。

tip

错误记录占比是数据同步实际执行结束后统计的，并不会在任务同步过程中统计。

脏数据记录