AIOps 落地实践

会议室:307
出品人:柯旻

伴随着云计算,大数据,AI 机器学习等技术的的普及与发展,随着底层云平台规模的快... 展开 >

专题出品人:柯旻

阿里巴巴大数据资深技术专家、运维总监

柯旻(大舞)大数据资深技术专家,阿里巴巴计算平台事业部基础工程技术负责人。从 2007 年加入中国雅虎后合并到阿里集团,历经 IDC,系统工程,CDN,云计算,大数据,等不同领域。目前负责整个阿里集团大规模离线计算,流计算,批处理,实时交互式分析型,AI 算法等大数据平台的公有云,专有云以及内部业务的运维以及运维产品开发,体系建设,架构规划,对外输出等方面工作。

地点:307

专题:AIOps 落地实践

伴随着云计算,大数据,AI 机器学习等技术的的普及与发展,随着底层云平台规模的快速增长,各大企业运维工作从规模和复杂度等多方面呈爆炸式增长。我们可以预见到,传统的手段已经无法满足如今运维管理的需求,智能运维(AIOps)应运而生,将会给运维行业带来革命性的变革和机会,依据数据和算法去重新打造新一代的智能运维/运营体系。本专题将重点探讨 AIOps 的落地实践等智能化运维新技术,帮助提升整体运维能力和效率。

by 胡飞雄

腾讯
IEG AIOps 团队负责人

腾讯游戏品类多、数量众多,自研和代理业务齐头并进,从而带来了不同业务间架构复杂多变的特性。在传统运维日常工作中,人力投入围绕在发布变更、故障处理、体验管理三大重点领域。智能化的到来为运维的工作提供了巨大的想象空间。那么,腾讯在智能化建设中如何逐步解放运维劳动力,如何在运维服务效率和质量方面实现质的再突破?本次演讲将以腾讯游戏运维在智能化探索中的转型实战经历,讲述 AIOps 如何在腾讯游戏游戏中落地,实现再突破。

内容大纲

1. 体系化转型的基础依赖-平台能力

  • 数据平台简介
  • 平台工具简介

2. 体系化转型的核心驱动-基础算法

  • 几个适用于复杂业务KPI场景的算法构建实例

3. 体系化转型的适用场景-运维运营

  • 案例简介-异常检测
  • 案例简介-技术运营场景

听众受益

  1. 在现有传统运维团队中,规模化、体系化提升数据运维及 AIOps 能力的关键要素是什么
  2. AIOps 的主战场都有哪些
  3. 技术运营的价值可以体现在哪些场景

适合人群

技术总监、运维团队负责人、运维人员。

by 蒋君伟(飞泉)

阿里巴巴
技术专家

无论是传统还是互联网企业,将传统业务逐步接入互联网,将现有 IT 系统逐步云化,包括建立自己的云与大数据中心,都已是普遍的现状。而这样做带来了两个巨大的挑战:

1. 传统运维工作正不断被云平台接管,那么除了监控与自动化,运维人还应该做什么?

2. 技术复杂性与资源规模都在快速增长,这样大体量的资源将成为企业沉重的成本负担,运维人又应该做什么?

本次分享将介绍阿里巴巴计算平台 SRE 团队如何通过智能数据化运营来 Hold 住这个全球最大的大数据集群与双 11 购物活动。

内容大纲

1. 运维与运营的定义:在这部分将介绍什么是运营,运维与运营的区别,为何以及如何向运营转型

2. 数据智能化运营建设过程:

  • 数据化:运维主题数据仓库建设,关系库、时序数据库、文档数据库、倒排索引
  • 服务化:运维元数据、数据服务 API 建设、数据消费分析、数据全文检索
  • 可视化:数据探索工具、数据看板
  • 智能化:相关 AI 算法与场景

听众受益

如何更好地建设与治理运维大数据,以及如何使用这些数据,驱动运维向智能化运营转型,以提高运维团队效率,并使运维工作更智能化。

适合人群

技术总监、运维团队负责人、运维人员。

 

 

by 朱伟

微博
广告运维团队负责人

随着微博广告业务体量的增长和业务复杂度的增加,传统运维体系在复杂的业务系统中面临众多挑战。故障定位困难、报警频发、效率低下,同时大量的软硬件资源、人力资源投入到广告业务当中,造成资源浪费、管理混乱、人员身心俱疲,更重要的是在这过程中,广告收入不断损失。

本次分享将带领大家一同探讨,在面对这些重大挑战的时候,我们如何利用数据驱动运维系统的升级;如何通过算法洞察广告业务系统;如何在 AIOps 的探索实践中,提升我们的服务质量,保障广告业务系统的可用性,从而减少广告收入的损失。

内容大纲

1.   复杂业务场景下的运维痛点

2.   智能运维体系的转型实践

  • 实时指标仓库
  • 链路跟踪
  • 动态阈值
  • 日志聚类
  • 上线自愈
  • 数据可视化

3.   探索在 AIOps 的转型之路上

听众受益

  1. 如何利用系统产生的数据回馈我们的系统
  2. 复杂业务场景下如何提高系统可用性,减少收入损失
  3. 如何在 AIOps 的潮流下建设新一代的运维体系

适合人群

技术总监、运维团队负责人、运维人员。

by 孟静磊

字节跳动
基础架构部工程师

时序 Metrics 数据在字节跳动内部应用广泛,覆盖率非常高,基本上所有的业务、服务、机器都会发送时序数据到 TSDB 进行数据的存储和查询。这些海量的时序 Metrics 数据的主要用途就是监控和报警。传统的基于阈值的监控和报警在使用上有诸多不便:一方面阈值的确定比较困难(尤其是有周期性的指标),并且随着业务的发展,阈值需要经常更改;另一方面,不同的业务对需要报警的时序类型有不同倾向(有的需要过滤抖动,有的只需要掉底报警)。

除此之外,同一个服务或者多个服务的不同报警规则之间由于缺乏关联关系,会使得报警风暴极易形成。本次分享,我们将介绍基于时序 Metrics 数据的智能监控在字节跳动的实践,这套实践方案已经在字节跳动内部推广,并且取得了很好的效果,可以帮助开发运维人员更准确、快速地发现并修复线上问题。

内容大纲

1. 传统阈值监控和报警的困境

2. 智能监控体系构建

  • 多数据源的构建
  • 异常发现:针对不同指标类型(场景)的时序 Metrics 异常检测
  • 异常分类和按需订阅
  • 报警收敛
  • 自动诊断和修复
  • 结果反馈

3. 应用效果

4. 总结和展望

听众受益

  1. 了解阈值监控和报警的困境
  2. 了解字节跳动 AIOps 团队在智能监控体系构建过程中的经验,包括多数据源的构建、异常检测、异常分类、报警收敛和自动诊断与修复

适合人群

技术总监、运维团队负责人、运维人员。

by 李聪

百度
高级工程师

在监控系统运行状态的时候,请求量和对应的失败量是一组常用的指标。工程师们常常会往请求量上附加一些标签,从请求的来源、处理过程等角度进行描述,我们把这些标签称作维度。这样一来,在故障发生的时候,指标在对应维度上就会表现出异常波动,工程师就能大概知道故障的范围和原因。比如对手机银行来说,维度可以包括交易类型、渠道、客户端版本等,如果失败请求集中在<转账功能>,这可能是转账应用出现了问题。对于一个系统来说,这样的维度组合有成千上万个,逐个配置报警是相当复杂的任务,维护成本也比较高。另一方面,一个比较大的维度组合,比如<转账功能>异常的时候,被它包含的那些维度组合,比如<转账功能,转入X行>、<转账功能、App 版本 Y>也会异常,产生报警风暴,干扰工程师判断。

本次分享将介绍百度的多维度报警算法,不需要逐个维度配置规则,就能够精准地给出失败集中的维度组合,在百度内部和外部客户的场景中都取得了良好的效果。

内容大纲

1. 背景

  •  请求量监控
  •  多维度监控
  •  常见场景和难点

2. 基于请求量、失败量的多维度报警算法

  •  基本算法
  •  大数据量优化
  •  常态异常的处理

3. 其他黄金指标的多维度报警算法

4. 各场景中的效果

听众受益

  • 了解多维度数据在故障诊断中的作用、适用边界; 
  • 了解在各个场景中怎么自动地进行多维度分析,给出精准的结果,消除报警风暴。 

适合人群

技术总监、运维团队负责人、运维人员、运维平台研发人员、智能运维算法研发人员。

by 章清

科大讯飞股份有限公司
SRE架构师

随着AI的发展,应用对AI需求的爆发,日益增加的业务复杂性和急剧扩张的业务规模给稳定性带来了极大挑战。为了能在平台稳定性方面取得质的提升,讯飞AI Cloud运维团队在2018年开始向SRE团队转型,针对AI业务的特性,基于容器等相关技术建设SRE系统工具,并在2019年创造了212天无故障的记录。本次演讲将重点分享讯飞AI Cloud是如何通过容器、kubernetes、prometheus等云原生技术栈与SRE理念的结合,实现SRE系统工具的建设,以及在SRE团队转型方面的经验和思考。

内容大纲

1. 团队SRE转型

  • AI服务运维的难点和挑战
  • 传统运维向SRE的转型实践

2. 基于prometheus、zabbix的问题发现

  • AI服务全链路的多维指标采集和根因分析
  • AI服务海量监控指标下的告警信噪比优化

3. 基于APM、EFK的故障处理

  • 大规模AI服务的快速排障和应急实践
  • 故障自愈探索实践

4. 基于kubernetes的容量管理

  • AI服务超大模型资源的快速更新实践
  • 跨AI服务的自动化弹性调度实践

听众收益

  1. 了解传统运维向SRE转型的实践经验和收益
  2. 了解讯飞AI Cloud基于云原生技术加速SRE转型的实践经验
  3. 了解讯飞AI Cloud在监控指标采集、根因分析和告警优化上的实践经验
  4. 了解讯飞AI Cloud在快速排障、故障自愈上的探索实践
  5. 了解讯飞AI Cloud在自动化容量管理上的实践经验

适合人群

  1. 对运维域云原生技术和SRE具有一定了解的运维或开发者
  2. 对云原生技术在运维域的应用和实践感兴趣的运维或开发者
  3. 对传统运维向SRE转型和SRE实践感兴趣的运维或开发者

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86 17310043226