Skip to main content

脏数据分析

该模块展示实时任务运行过程中记录到的脏数据内容和分析情况。

前提要求

  • 支持Flink1.12及以上的实时采集、FlinkSQL任务类型
  • 需要在【任务开发-任务设置】处开启脏数据管理,并选择脏数据保存
  • 提供内置脏数据记录表建表语句:
      CREATE TABLE dirty_data (
    job_id varchar(32) NOT NULL COMMENT 'Flink Job Id',
    job_name varchar(255) NOT NULL COMMENT 'Flink Job Name',
    operator_name varchar(255) NOT NULL COMMENT '出现异常数据的算子名,包含表名',
    dirty_data text NOT NULL COMMENT '脏数据的异常数据',
    error_message text COMMENT '脏数据中异常原因',
    field_name varchar(255) DEFAULT NULL COMMENT '脏数据中异常字段名',
    error_type varchar(255) DEFAULT NULL COMMENT '脏数据异常类型',
    create_time timestamp(6) NOT NULL DEFAULT CURRENT_TIMESTAMP(6) ON UPDATE CURRENT_TIMESTAMP(6) COMMENT '脏数据出现的时间点',
    KEY idx_job_id (job_id),
    KEY idx_operator_name (operator_name)
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='存储脏数据';

脏数据列表

  • 列表内容:
列表字段说明
时间默认表示脏数据出现的时间,如果没有获取到会记录写入脏数据库的时间
脏数据表FlinkSQL中涉及到的表,一般sink表容易出现脏数据
脏数据详情展示某行写入失败的数据,目前系统无法定位到是哪个字段的问题
脏数据原因打印日志内容,可以通过分析日志排查具体脏数据原因。比如写入数据字符过长、格式转化失败等
  • 列表操作

    支持根据时间、来源表过滤脏数据,支持下载列表所有脏数据内容。