脏数据分析
该模块展示实时任务运行过程中记录到的脏数据内容和分析情况。
前提要求
- 支持Flink1.12及以上的实时采集、FlinkSQL任务类型
- 需要在【任务开发-任务设置】处开启脏数据管理,并选择脏数据保存
- 提供内置脏数据记录表建表语句:
CREATE TABLE dirty_data (
job_id varchar(32) NOT NULL COMMENT 'Flink Job Id',
job_name varchar(255) NOT NULL COMMENT 'Flink Job Name',
operator_name varchar(255) NOT NULL COMMENT '出现异常数据的算子名,包含表名',
dirty_data text NOT NULL COMMENT '脏数据的异常数据',
error_message text COMMENT '脏数据中异常原因',
field_name varchar(255) DEFAULT NULL COMMENT '脏数据中异常字段名',
error_type varchar(255) DEFAULT NULL COMMENT '脏数据异常类型',
create_time timestamp(6) NOT NULL DEFAULT CURRENT_TIMESTAMP(6) ON UPDATE CURRENT_TIMESTAMP(6) COMMENT '脏数据出现的时间点',
KEY idx_job_id (job_id),
KEY idx_operator_name (operator_name)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='存储脏数据';
脏数据列表
- 列表内容:
列表字段 | 说明 |
---|---|
时间 | 默认表示脏数据出现的时间,如果没有获取到会记录写入脏数据库的时间 |
脏数据表 | FlinkSQL中涉及到的表,一般sink表容易出现脏数据 |
脏数据详情 | 展示某行写入失败的数据,目前系统无法定位到是哪个字段的问题 |
脏数据原因 | 打印日志内容,可以通过分析日志排查具体脏数据原因。比如写入数据字符过长、格式转化失败等 |
列表操作
支持根据时间、来源表过滤脏数据,支持下载列表所有脏数据内容。