AIOps 落地实践

会议室:待定
出品人:柯旻

伴随着云计算,大数据,AI 机器学习等技术的的普及与发展,随着底层云平台规模的快... 展开 >

专题出品人:柯旻

阿里巴巴大数据资深技术专家、运维总监

柯旻(大舞)大数据资深技术专家,阿里巴巴计算平台事业部基础工程技术负责人。从 2007 年加入中国雅虎后合并到阿里集团,历经 IDC,系统工程,CDN,云计算,大数据,等不同领域。目前负责整个阿里集团大规模离线计算,流计算,批处理,实时交互式分析型,AI 算法等大数据平台的公有云,专有云以及内部业务的运维以及运维产品开发,体系建设,架构规划,对外输出等方面工作。

专题:AIOps 落地实践

伴随着云计算,大数据,AI 机器学习等技术的的普及与发展,随着底层云平台规模的快速增长,各大企业运维工作从规模和复杂度等多方面呈爆炸式增长。我们可以预见到,传统的手段已经无法满足如今运维管理的需求,智能运维(AIOps)应运而生,将会给运维行业带来革命性的变革和机会,依据数据和算法去重新打造新一代的智能运维/运营体系。本专题将重点探讨 AIOps 的落地实践等智能化运维新技术,帮助提升整体运维能力和效率。

by 胡飞雄

腾讯
IEG AIOps 团队负责人

腾讯游戏品类多、数量众多,自研和代理业务齐头并进,从而带来了不同业务间架构复杂多变的特性。在传统运维日常工作中,人力投入围绕在发布变更、故障处理、体验管理三大重点领域。智能化的到来为运维的工作提供了巨大的想象空间。那么,腾讯在智能化建设中如何逐步解放运维劳动力,如何在运维服务效率和质量方面实现质的再突破?本次演讲将以腾讯游戏运维在智能化探索中的转型实战经历,讲述 AIOps 如何在腾讯游戏游戏中落地,实现再突破。

内容大纲

1. 体系化转型的基础依赖-平台能力

  • 数据平台简介
  • 平台工具简介

2. 体系化转型的核心驱动-基础算法

  • 几个适用于复杂业务KPI场景的算法构建实例

3. 体系化转型的适用场景-运维运营

  • 案例简介-异常检测
  • 案例简介-技术运营场景

听众受益

  • 在现有传统运维团队中,规模化、体系化提升数据运维及 AIOps 能力的关键要素是什么;
  • AIOps 的主战场都有哪些;
  • 技术运营的价值可以体现在哪些场景。

适合人群

技术总监、运维团队负责人、运维人员。

by 蒋君伟(飞泉)

阿里巴巴
技术专家

无论是传统还是互联网企业,将传统业务逐步接入互联网,将现有 IT 系统逐步云化,包括建立自己的云与大数据中心,都已是普遍的现状。而这样做带来了两个巨大的挑战:

1. 传统运维工作正不断被云平台接管,那么除了监控与自动化,运维人还应该做什么?

2. 技术复杂性与资源规模都在快速增长,这样大体量的资源将成为企业沉重的成本负担,运维人又应该做什么?

本次分享将介绍阿里巴巴计算平台 SRE 团队如何通过智能数据化运营来 Hold 住这个全球最大的大数据集群与双 11 购物活动。

内容大纲

1. 运维与运营的定义:在这部分将介绍什么是运营,运维与运营的区别,为何以及如何向运营转型。

2. 数据智能化运营建设过程:

  • 数据化:运维主题数据仓库建设,关系库、时序数据库、文档数据库、倒排索引;
  • 服务化:运维元数据、数据服务 API 建设、数据消费分析、数据全文检索;
  • 可视化:数据探索工具、数据看板;
  • 智能化:相关 AI 算法与场景。

适合人群

技术总监、运维团队负责人、运维人员。

听众受益

如何更好地建设与治理运维大数据,以及如何使用这些数据,驱动运维向智能化运营转型,以提高运维团队效率,并使运维工作更智能化。

 

by 朱伟

微博
广告运维团队负责人

随着微博广告业务体量的增长和业务复杂度的增加,传统运维体系在复杂的业务系统中面临众多挑战。故障定位困难、报警频发、效率低下,同时大量的软硬件资源、人力资源投入到广告业务当中,造成资源浪费、管理混乱、人员身心俱疲,更重要的是在这过程中,广告收入不断损失。

本次分享将带领大家一同探讨,在面对这些重大挑战的时候,我们如何利用数据驱动运维系统的升级;如何通过算法洞察广告业务系统;如何在 AIOps 的探索实践中,提升我们的服务质量,保障广告业务系统的可用性,从而减少广告收入的损失。

内容大纲

1.   复杂业务场景下的运维痛点

2.   智能运维体系的转型实践

  • 实时指标仓库
  • 链路跟踪
  • 动态阈值
  • 日志聚类
  • 上线自愈
  • 数据可视化

3.   探索在 AIOps 的转型之路上

听众受益

  • 如何利用系统产生的数据回馈我们的系统;
  • 复杂业务场景下如何提高系统可用性,减少收入损失;
  • 如何在 AIOps 的潮流下建设新一代的运维体系。

适合人群

技术总监、运维团队负责人、运维人员。

by 孟静磊

字节跳动
基础架构部工程师

时序 Metrics 数据在字节跳动内部应用广泛,覆盖率非常高,基本上所有的业务、服务、机器都会发送时序数据到 TSDB 进行数据的存储和查询。这些海量的时序 Metrics 数据的主要用途就是监控和报警。传统的基于阈值的监控和报警在使用上有诸多不便:一方面阈值的确定比较困难(尤其是有周期性的指标),并且随着业务的发展,阈值需要经常更改;另一方面,不同的业务对需要报警的时序类型有不同倾向(有的需要过滤抖动,有的只需要掉底报警)。

除此之外,同一个服务或者多个服务的不同报警规则之间由于缺乏关联关系,会使得报警风暴极易形成。本次分享,我们将介绍基于时序 Metrics 数据的智能监控在字节跳动的实践,这套实践方案已经在字节跳动内部推广,并且取得了很好的效果,可以帮助开发运维人员更准确、快速地发现并修复线上问题。

内容大纲

1. 传统阈值监控和报警的困境

2. 智能监控体系构建

  • 多数据源的构建
  • 异常发现:针对不同指标类型(场景)的时序 Metrics 异常检测
  • 异常分类和按需订阅
  • 报警收敛
  • 自动诊断和修复
  • 结果反馈

3. 应用效果

4. 总结和展望

听众受益

1. 了解阈值监控和报警的困境;

2. 了解字节跳动 AIOps 团队在智能监控体系构建过程中的经验,包括多数据源的构建、异常检测、异常分类、报警收敛和自动诊断与修复。

适合人群

技术总监、运维团队负责人、运维人员。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方

InfoQ助你疫后复工,提升战力!全年会议门票最低5折起,立即查看>>

想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86-17310043226