孟静磊,字节跳动基础架构部工程师,加入字节跳动后一直从事 AIOps 算法与架构方面的工作, 目前负责基础架构 AIOps 团队时序数据智能处理方面的工作,致力于 AIOps 前沿算法研究与落地和智能报警系统的构建。希望能给大家带来字节跳动在智能监控系统演进过程中的经验,与大家共同探讨对 AIOps 的思考。
孟静磊,字节跳动基础架构部工程师,加入字节跳动后一直从事 AIOps 算法与架构方面的工作, 目前负责基础架构 AIOps 团队时序数据智能处理方面的工作,致力于 AIOps 前沿算法研究与落地和智能报警系统的构建。希望能给大家带来字节跳动在智能监控系统演进过程中的经验,与大家共同探讨对 AIOps 的思考。
时序 Metrics 数据在字节跳动内部应用广泛,覆盖率非常高,基本上所有的业务、服务、机器都会发送时序数据到 TSDB 进行数据的存储和查询。这些海量的时序 Metrics 数据的主要用途就是监控和报警。传统的基于阈值的监控和报警在使用上有诸多不便:一方面阈值的确定比较困难(尤其是有周期性的指标),并且随着业务的发展,阈值需要经常更改;另一方面,不同的业务对需要报警的时序类型有不同倾向(有的需要过滤抖动,有的只需要掉底报警)。
除此之外,同一个服务或者多个服务的不同报警规则之间由于缺乏关联关系,会使得报警风暴极易形成。本次分享,我们将介绍基于时序 Metrics 数据的智能监控在字节跳动的实践,这套实践方案已经在字节跳动内部推广,并且取得了很好的效果,可以帮助开发运维人员更准确、快速地发现并修复线上问题。
1. 传统阈值监控和报警的困境
2. 智能监控体系构建
3. 应用效果
4. 总结和展望
技术总监、运维团队负责人、运维人员。