如何实现多维度监控的精准报警

所属专题:AIOps 落地实践

嘉宾 : 李聪 | 百度高级工程师

会议室 : 307

讲师介绍

专题演讲嘉宾:李聪

百度高级工程师

百度高级工程师,2015 年于哈尔滨工程大学取得计算机科学与技术专业学士学位。自 2014 年加入百度起从事运维平台相关研发工作,有丰富的异常检测、故障定位算法研究经验。在 AIOps 领域致力于研究和修改前沿算法,让算法产生实际作用,更快地发现故障,更准确地描述故障。 

议题介绍

演讲:如何实现多维度监控的精准报警

在监控系统运行状态的时候,请求量和对应的失败量是一组常用的指标。工程师们常常会往请求量上附加一些标签,从请求的来源、处理过程等角度进行描述,我们把这些标签称作维度。这样一来,在故障发生的时候,指标在对应维度上就会表现出异常波动,工程师就能大概知道故障的范围和原因。比如对手机银行来说,维度可以包括交易类型、渠道、客户端版本等,如果失败请求集中在<转账功能>,这可能是转账应用出现了问题。对于一个系统来说,这样的维度组合有成千上万个,逐个配置报警是相当复杂的任务,维护成本也比较高。另一方面,一个比较大的维度组合,比如<转账功能>异常的时候,被它包含的那些维度组合,比如<转账功能,转入X行>、<转账功能、App 版本 Y>也会异常,产生报警风暴,干扰工程师判断。

本次分享将介绍百度的多维度报警算法,不需要逐个维度配置规则,就能够精准地给出失败集中的维度组合,在百度内部和外部客户的场景中都取得了良好的效果。

内容大纲

1. 背景

  •  请求量监控
  •  多维度监控
  •  常见场景和难点

2. 基于请求量、失败量的多维度报警算法

  •  基本算法
  •  大数据量优化
  •  常态异常的处理

3. 其他黄金指标的多维度报警算法

4. 各场景中的效果

听众受益

  • 了解多维度数据在故障诊断中的作用、适用边界; 
  • 了解在各个场景中怎么自动地进行多维度分析,给出精准的结果,消除报警风暴。 

适合人群

技术总监、运维团队负责人、运维人员、运维平台研发人员、智能运维算法研发人员。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86 17310043226