基于时序 Metrics 数据的智能监控在字节跳动的实践

所属专题:AIOps 落地实践

嘉宾 : 孟静磊 | 字节跳动基础架构部工程师

讲师介绍

专题演讲嘉宾:孟静磊

字节跳动基础架构部工程师

孟静磊,字节跳动基础架构部工程师,加入字节跳动后一直从事 AIOps 算法与架构方面的工作, 目前负责基础架构 AIOps 团队时序数据智能处理方面的工作,致力于 AIOps 前沿算法研究与落地和智能报警系统的构建。希望能给大家带来字节跳动在智能监控系统演进过程中的经验,与大家共同探讨对 AIOps 的思考。

议题介绍

演讲:基于时序 Metrics 数据的智能监控在字节跳动的实践

时序 Metrics 数据在字节跳动内部应用广泛,覆盖率非常高,基本上所有的业务、服务、机器都会发送时序数据到 TSDB 进行数据的存储和查询。这些海量的时序 Metrics 数据的主要用途就是监控和报警。传统的基于阈值的监控和报警在使用上有诸多不便:一方面阈值的确定比较困难(尤其是有周期性的指标),并且随着业务的发展,阈值需要经常更改;另一方面,不同的业务对需要报警的时序类型有不同倾向(有的需要过滤抖动,有的只需要掉底报警)。

除此之外,同一个服务或者多个服务的不同报警规则之间由于缺乏关联关系,会使得报警风暴极易形成。本次分享,我们将介绍基于时序 Metrics 数据的智能监控在字节跳动的实践,这套实践方案已经在字节跳动内部推广,并且取得了很好的效果,可以帮助开发运维人员更准确、快速地发现并修复线上问题。

内容大纲

1. 传统阈值监控和报警的困境

2. 智能监控体系构建

  • 多数据源的构建
  • 异常发现:针对不同指标类型(场景)的时序 Metrics 异常检测
  • 异常分类和按需订阅
  • 报警收敛
  • 自动诊断和修复
  • 结果反馈

3. 应用效果

4. 总结和展望

听众受益

1. 了解阈值监控和报警的困境;

2. 了解字节跳动 AIOps 团队在智能监控体系构建过程中的经验,包括多数据源的构建、异常检测、异常分类、报警收敛和自动诊断与修复。

适合人群

技术总监、运维团队负责人、运维人员。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86-17310043226