监控告警
实际任务执行过程中,会存在任务运行异常情况,导致指标数据结果异常等情况发生。本模块针对指标结果进行监控告警,从而及时发现问题并解决问题,保障业务正常运转。
首先通过「告警规则」模块进行规则设置,随后通过「告警记录」模块查询历史告警记录。
设置告警规则
入口:【运维中心】-【监控告警】-【告警规则】-【创建告警规则】
规则设置步骤如下:
第一步:基础设置,包括规则名称、监控类型、选择对象。
- 规则名称:格式限制:中文、数字、字母、下划线;长度限制:2-64位;不可重复设置
- 选择对象:要进行指标结果监控的已发布的派生指标、复合指标、自定义指标,支持根据指标名称或指标编码进行模糊搜索。指标可被多个规则重复使用,你可基于指标结果的重要程度进行差异化设置。
第二步:设置告警触发条件,支持设置多个规则的任一规则满足触发或全部规则满足触发。每个规则内可设置1-5个条件,条件之间为“且”关系。条件由以下五部分组成:
任一数据/全部数据:全部数据指检测的数据范围里,所有的数据满足这个规则才触发;任一数据即有一条满足就触发
原始值/比前一个周期:原始值为指标结果列的结果;比前一个周期为当前结果和上一个业务日期的结果相比,比如:
1)每天执行计算的账户余额指标,业务日期为2022-10-10张三的账户余额值和业务日期为2022-10-09张三的账户余额值相比
2)每月1号执行计算的账户余额指标,业务日期为2022-10-01张三的账户余额值和业务日期为2022-09-01张三的账户余额值相比
3)如果是原子指标,按照天粒度来(先不做)
4,注意:比前一周期要结合指标的调度信息以及维度来判断
- 判断符:若前面设置的“原始值”,此处选项范围为大于、小于、大于等于、小于等于、等于;若前面设置的“比前一个周期”,此处范围为波动超过、上升超过、下降超过,其中,
- 数值/百分比:若前面设置的“原始值”,此处选项仅有数值选择;若前面设置的“比前一个周期”,此处范围为数值和百分比,相应计算公式分别如下:
计算字段 | 数值 | 百分比 |
---|---|---|
波动超过 | |本周期数据-上一周期数据| | |本周期数据/上一周期数据-1| * 100% |
上升超过 | 本周期数据-上一周期数据 | (本周期数据/上一周期数据-1) * 100% |
下降超过 | 上一周期数据-本周期数据 | 1- (本周期数据/上一周期数据) * 100% |
第三步:设置告警接收信息,具体设置如下:
- 最大告警次数:1-100的整数。若设置的次数>1,需同时设置每次告警的最小告警间隔时间,1-500的整数
- 免打扰时间:设置告警免打扰的开始时间和结束时间,结束时间为开始时间之后第一次触发的时间。免打扰时间段内触发的告警,在结束后发送消息通知。
- 告警方式:支持钉钉、短信、邮箱告警
设置好的告警规则可通过【运维中心】-【监控告警】-【告警规则】中的规则列表进行查看。
- 告警规则的展示,开启后生效,关闭后不生效,设置的规则默认为开启状态。开启时请保证规则指标及触发条件正常,否则将无法正常开启
单个指标设置的告警情况可在【指标中心】-【指标定义】-【指标详情】-【应用信息】-【数据安全】-【告警规则】中查看。
具体支持的告警方式根据您当前购买的版本决定。
运行告警任务
告警任务执行时间:指标任务下游,其他依赖任务及API任务上游,如下图所示。只有这个指标结果没有触发告警,才走下游的任务。
告警记录查看
入口:【运维中心】-【监控告警】-【告警记录】中的告警记录列表
主要内容:
- 核心指标概览,包括今日告警数、近七日告警数(包括今日)、近30日告警数(包括今日)
- 告警记录详情
- 按照规则的触发次数展示,即一个告警规则告警n次,则此处展示n个告警记录
- 告警内容格式:【指标告警】告警类型:{监控类型}异常告警;告警对象:{监控对象};检测数据:{xx}条;异常数据:{xx}条;告警时间:2022-01-01 01:01:01;更新人:{告警规则更新人} 按照固定的格式展示告警内容文本,可以换行展示,超过三行缺省,如:【指标告警】告警类型:指标结果异常告警;告警对象:当天账户余额;检测数据:100条;异常数据:10条;告警时间:2022-10-10 17:17:17;更新人:yuwei@dtstack.com
- 异常数据支持查看明细,包括指标名称、指标版本、告警规则名称、异常明细数据(列顺序:指标、维度列、业务日期、监控检测时间),并支持异常数据导出,导出文件名称:{监控对象名称}_告警异常明细_{告警时间20220101010101},文件格式:.csv