百度高级工程师,2015 年于哈尔滨工程大学取得计算机科学与技术专业学士学位。自 2014 年加入百度起从事运维平台相关研发工作,有丰富的异常检测、故障定位算法研究经验。在 AIOps 领域致力于研究和修改前沿算法,让算法产生实际作用,更快地发现故障,更准确地描述故障。
百度高级工程师,2015 年于哈尔滨工程大学取得计算机科学与技术专业学士学位。自 2014 年加入百度起从事运维平台相关研发工作,有丰富的异常检测、故障定位算法研究经验。在 AIOps 领域致力于研究和修改前沿算法,让算法产生实际作用,更快地发现故障,更准确地描述故障。
在监控系统运行状态的时候,请求量和对应的失败量是一组常用的指标。工程师们常常会往请求量上附加一些标签,从请求的来源、处理过程等角度进行描述,我们把这些标签称作维度。这样一来,在故障发生的时候,指标在对应维度上就会表现出异常波动,工程师就能大概知道故障的范围和原因。比如对手机银行来说,维度可以包括交易类型、渠道、客户端版本等,如果失败请求集中在<转账功能>,这可能是转账应用出现了问题。对于一个系统来说,这样的维度组合有成千上万个,逐个配置报警是相当复杂的任务,维护成本也比较高。另一方面,一个比较大的维度组合,比如<转账功能>异常的时候,被它包含的那些维度组合,比如<转账功能,转入X行>、<转账功能、App 版本 Y>也会异常,产生报警风暴,干扰工程师判断。
本次分享将介绍百度的多维度报警算法,不需要逐个维度配置规则,就能够精准地给出失败集中的维度组合,在百度内部和外部客户的场景中都取得了良好的效果。
1. 背景
2. 基于请求量、失败量的多维度报警算法
3. 其他黄金指标的多维度报警算法
4. 各场景中的效果
技术总监、运维团队负责人、运维人员、运维平台研发人员、智能运维算法研发人员。