2014 年 6 月于北京理工大学取得计算机硕士学位,加入百度后一直从事 AIOps 算法与架构方面的工作,致力于黄金指标异常检测体系、AIOps 前沿算法研究与落地、新一代报警系统等相关工作。本次演讲希望能给大家分享百度在黄金指标异常检测策略研究过程中的经验,与大家共同探讨提高。
2014 年 6 月于北京理工大学取得计算机硕士学位,加入百度后一直从事 AIOps 算法与架构方面的工作,致力于黄金指标异常检测体系、AIOps 前沿算法研究与落地、新一代报警系统等相关工作。本次演讲希望能给大家分享百度在黄金指标异常检测策略研究过程中的经验,与大家共同探讨提高。
请求量、响应时间、错误数和容量是运维领域的四大黄金指标,针对黄金指标的异常检测技术是故障发现和故障诊断的基础。但一直以来,黄金指标异常检测技术都是一个复杂的问题。一方面,需要算法针对不同指标训练不同的模型,并且要能满足 Oncall 工程师对高准确召回率的要求,另一方面,历史数据集中的故障数据比例不高,数据标注成本较大,这就要求算法自己有能力识别并排除噪声数据,第三,故障发现、诊断、自愈等场景对于准确率和召回率的倾向不同,算法需要具备按场景调节的能力。 本次演讲,我们将介绍百度 AIOps 黄金指标异常检测技术。我们的算法已经覆盖了百度所有业务线的故障发现,并且也在故障诊断和自愈场景有了很多的实践。
1. 黄金指标监控背景
2. 黄金指标监控体系
2.1 基于高斯核密度估计的延迟监控方法
2.2 基于Beta分布核密度估计的容量监控方法
2.3 基于二项分布的错误数监控方法
2.4 基于泊松分布的流量监控方法
3. 应用效果
4. 总结及展望
1. 运维黄金指标的传统监控方法及其缺陷;
2. 基于概率统计的运维黄金指标监控方法。