Skip to main content

任务告警

该模块主要提供任务的告警配置功能,当任务运行满足某个指定阈值时发出告警通知。

平台支持两种维护告警规则的方式:

  1. 单任务配置。适合针对某个具体任务,单独配置运行指标类的监控规则
  2. 全局配置。适合针对全局任务,创建状态类的监控规则批量应用至多个任务上。

告警规则说明

  • 触发方式
触发方式说明告警恢复通知免打扰时间告警抑制免重告警
任务失败当前任务状态变为运行失败时,触发告警支持支持不支持不支持
任务停止当前任务状态变为取消时,触发告警(常见于手动停止)支持支持不支持不支持
消费延迟数平台每10秒统计一次Kafka Topic中堆积未被消费的数据量,当达到设置的阈值时,发出告警。
如果Topic中有多个分区,只要任一分区满足条件即会触发
不支持支持支持不支持
消费延迟比例平台每10秒统计一次Kafka Topic中堆积未被消费的数据量/总数据量,当达到设置的阈值时,发出告警。
如果Topic中有多个分区,按分区统计比例,只要任一分区满足条件即会触发
不支持支持支持不支持
输入速率对源表/维表的输入速率进行监控,比如在连续1min时间中,速率小于100BPS时,触发告警。BPS/RPS的口径定义在【数据曲线】中已有介绍(KBPS/MBPS只是对BPS指标的单位转化)支持支持支持不支持
输出速率对结果表的输出速率进行监控,逻辑同上支持支持支持不支持
Checkpoint失败当Checkpoint生成失败时,触发告警支持支持支持不支持
数据反压当Kafka Topic任一分区的反压比例超过阈值时,触发告警(反压逻辑在【运行信息】中已有介绍)支持支持支持不支持
DDL待执行在数据还原任务中,采集到的源表DDL语句在下游还原执行失败时,触发告警
* 仅支持单任务配置。因为仅针对数据还原任务有效
不支持不支持不支持不支持
日志关键词实时解析任务的日志信息,当日志中出现规则配置的关键词时,触发告警
仅支持全局配置。因为在任务开发处,需要用户先将日志信息打到Kafka。而在日常使用中,一般会将实时任务的日志信息打到一个Topic
每创建一个日志关键词监控规则,系统会根据您选择的Topic和配置的关键词,自动生成一个实时任务
不支持支持不支持支持
启停策略执行失败实时任务绑定启停策略定时执行失败,触发告警不支持支持不支持不支持
任务健康分运行中状态的任务健康分达到告警区间,触发告警支持支持支持不支持
note

告警信息来自于 Prometheus ,如果 Prometheus 或者 pushgateway 网关故障,会无法获取到数据信息,即无法正常告警。

  • 告警级别

    紧急、重要(默认)、次要、提示。该级别只是对规则和告警内容打个标签,方便用户收到告警后根据重要性安排处理优先级,本身并没有业务逻辑。

  • 告警方式

info

目前,自定义通道仅在旗舰版中提供,钉钉通道在专业版、旗舰版中提供。

支持平台站内信(默认)、短信、邮箱、钉钉。如果需要更多通道比如企业微信,可以在自定义通道添加维护。

  • 告警抑制

    用户自定义:在30分钟内,任务触发N次告警后,1小时内不再发送告警消息。

  • 告警恢复

    在触发告警后,如果任务运行状态/指标恢复至告警规则范围之外时,会再次发出告警恢复的通知消息。

  • 免打扰时间

info

目前,我们仅在旗舰版中提供了免打扰时间功能。

tip

免打扰时间开始时间的秒数从00开始计算,结束时间的秒数为59秒。例如页面配置:开始时间10:00-结束时间10:05,实际运行为:开始时间10:00:00-结束时间10:05:59。

指定时间范围,即使满足告警条件时,也不发生告警消息。

告警规则配置

单任务配置

  • 告警配置:通过【任务运维-实时任务-告警】TAB进入管理维护。

image-20220711144915954

image-20220711144915954

  • 告警历史:每次任务发出告警消息时,平台都会自动记录,方便问题回溯。

image-20220711145039697

全局配置

  • 告警配置:在【任务运维】列表页,点击「全局告警」按钮进入管理维护。

    • 新建规则

      相比于单任务配置,多了一个「选择任务」的配置项。**当选择全部时,后续平台的新增任务,均会自动应用至该规则。

    image-20230116143056891

  • 规则列表

    列表显示全局配置的告警规则。如果是「日志关键词」告警规则,因为这类规则等于一个实时任务,区分其他规则,此类规则会有任务状态管理,点击规则名称:

    1. 可以在弹窗内停止/续跑/重跑该规则任务。

      note

      停止——默认不保存SP,二次确认后直接停止 续跑——默认从最近的cp开始续跑,无需二次确认 重跑——默认从lastest点位开始重跑,无需二次确认

    2. 支持下载该任务的运行日志,用于观察该规则任务的运行情况

    3. 支持查看该规则任务的自动生成的FlinkSQL代码

  • 告警记录:

    • 不管单任务配置的规则,还是全局配置的规则,触发的告警消息,都会在该页面显示;

    • 点击处理/一键处理,标记告警消息已经处理过,无需再关注;