任务告警
该模块主要提供任务的告警配置功能,当任务运行满足某个指定阈值时发出告警通知。
平台支持两种维护告警规则的方式:
- 单任务配置。适合针对某个具体任务,单独配置运行指标类的监控规则。
- 全局配置。适合针对全局任务,创建状态类的监控规则批量应用至多个任务上。
告警规则说明
- 触发方式
触发方式 | 说明 | 告警恢复通知 | 免打扰时间 | 告警抑制 | 免重告警 |
---|---|---|---|---|---|
任务失败 | 当前任务状态变为运行失败时,触发告警 | 支持 | 支持 | 不支持 | 不支持 |
任务停止 | 当前任务状态变为取消时,触发告警(常见于手动停止) | 支持 | 支持 | 不支持 | 不支持 |
消费延迟数 | 平台每10秒统计一次Kafka Topic中堆积未被消费的数据量,当达到设置的阈值时,发出告警。 如果Topic中有多个分区,只要任一分区满足条件即会触发 | 不支持 | 支持 | 支持 | 不支持 |
消费延迟比例 | 平台每10秒统计一次Kafka Topic中堆积未被消费的数据量/总数据量,当达到设置的阈值时,发出告警。 如果Topic中有多个分区,按分区统计比例,只要任一分区满足条件即会触发 | 不支持 | 支持 | 支持 | 不支持 |
输入速率 | 对源表/维表的输入速率进行监控,比如在连续1min时间中,速率小于100BPS时,触发告警。BPS/RPS的口径定义在【数据曲线】中已有介绍(KBPS/MBPS只是对BPS指标的单位转化) | 支持 | 支持 | 支持 | 不支持 |
输出速率 | 对结果表的输出速率进行监控,逻辑同上 | 支持 | 支持 | 支持 | 不支持 |
Checkpoint失败 | 当Checkpoint生成失败时,触发告警 | 支持 | 支持 | 支持 | 不支持 |
数据反压 | 当Kafka Topic任一分区的反压比例超过阈值时,触发告警(反压逻辑在【运行信息】中已有介绍) | 支持 | 支持 | 支持 | 不支持 |
DDL待执行 | 在数据还原任务中,采集到的源表DDL语句在下游还原执行失败时,触发告警 * 仅支持单任务配置。因为仅针对数据还原任务有效 | 不支持 | 不支持 | 不支持 | 不支持 |
日志关键词 | 实时解析任务的日志信息,当日志中出现规则配置的关键词时,触发告警 仅支持全局配置。因为在任务开发处,需要用户先将日志信息打到Kafka。而在日常使用中,一般会将实时任务的日志信息打到一个Topic 每创建一个日志关键词监控规则,系统会根据您选择的Topic和配置的关键词,自动生成一个实时任务 | 不支持 | 支持 | 不支持 | 支持 |
启停策略执行失败 | 实时任务绑定启停策略定时执行失败,触发告警 | 不支持 | 支持 | 不支持 | 不支持 |
任务健康分 | 运行中状态的任务健康分达到告警区间,触发告警 | 支持 | 支持 | 支持 | 不支持 |
告警信息来自于 Prometheus
,如果 Prometheus
或者 pushgateway
网关故障,会无法获取到数据信息,即无法正常告警。
告警级别
紧急、重要(默认)、次要、提示。该级别只是对规则和告警内容打个标签,方便用户收到告警后根据重要性安排处理优先级,本身并没有业务逻辑。
告警方式
目前,自定义通道仅在旗舰版中提供,钉钉通道在专业版、旗舰版中提供。
支持平台站内信(默认)、短信、邮箱、钉钉。如果需要更多通道比如企业微信,可以在自定义通道添加维护。
告警抑制
用户自定义:在30分钟内,任务触发N次告警后,1小时内不再发送告警消息。
告警恢复
在触发告警后,如果任务运行状态/指标恢复至告警规则范围之外时,会再次发出告警恢复的通知消息。
免打扰时间
目前,我们仅在旗舰版中提供了免打扰时间功能。
免打扰时间开始时间的秒数从00开始计算,结束时间的秒数为59秒。例如页面配置:开始时间10:00-结束时间10:05,实际运行为:开始时间10:00:00-结束时间10:05:59。
指定时间范围,即使满足告警条件时,也不发生告警消息。
告警规则配置
单任务配置
- 告警配置:通过【任务运维-实时任务-告警】TAB进入管理维护。
- 告警历史:每次任务发出告警消息时,平台都会自动记录,方便问题回溯。
全局配置
告警配置:在【任务运维】列表页,点击「全局告警」按钮进入管理维护。
新建规则
相比于单任务配置,多了一个「选择任务」的配置项。**当选择全部时,后续平台的新增任务,均会自动应用至该规则。
规则列表
列表显示全局配置的告警规则。如果是「日志关键词」告警规则,因为这类规则等于一个实时任务,区分其他规则,此类规则会有任务状态管理,点击规则名称:
可以在弹窗内停止/续跑/重跑该规则任务。
note停止——默认不保存SP,二次确认后直接停止 续跑——默认从最近的cp开始续跑,无需二次确认 重跑——默认从lastest点位开始重跑,无需二次确认
支持下载该任务的运行日志,用于观察该规则任务的运行情况
支持查看该规则任务的自动生成的FlinkSQL代码
告警记录:
不管单任务配置的规则,还是全局配置的规则,触发的告警消息,都会在该页面显示;
点击处理/一键处理,标记告警消息已经处理过,无需再关注;