伴随着云计算,大数据,AI 机器学习等技术的的普及与发展,随着底层云平台规模的快... 展开 >
柯旻(大舞)大数据资深技术专家,阿里巴巴计算平台事业部基础工程技术负责人。从 2007 年加入中国雅虎后合并到阿里集团,历经 IDC,系统工程,CDN,云计算,大数据,等不同领域。目前负责整个阿里集团大规模离线计算,流计算,批处理,实时交互式分析型,AI 算法等大数据平台的公有云,专有云以及内部业务的运维以及运维产品开发,体系建设,架构规划,对外输出等方面工作。
伴随着云计算,大数据,AI 机器学习等技术的的普及与发展,随着底层云平台规模的快速增长,各大企业运维工作从规模和复杂度等多方面呈爆炸式增长。我们可以预见到,传统的手段已经无法满足如今运维管理的需求,智能运维(AIOps)应运而生,将会给运维行业带来革命性的变革和机会,依据数据和算法去重新打造新一代的智能运维/运营体系。本专题将重点探讨 AIOps 的落地实践等智能化运维新技术,帮助提升整体运维能力和效率。
腾讯游戏品类多、数量众多,自研和代理业务齐头并进,从而带来了不同业务间架构复杂多变的特性。在传统运维日常工作中,人力投入围绕在发布变更、故障处理、体验管理三大重点领域。智能化的到来为运维的工作提供了巨大的想象空间。那么,腾讯在智能化建设中如何逐步解放运维劳动力,如何在运维服务效率和质量方面实现质的再突破?本次演讲将以腾讯游戏运维在智能化探索中的转型实战经历,讲述 AIOps 如何在腾讯游戏游戏中落地,实现再突破。
1. 体系化转型的基础依赖-平台能力
2. 体系化转型的核心驱动-基础算法
3. 体系化转型的适用场景-运维运营
技术总监、运维团队负责人、运维人员。
无论是传统还是互联网企业,将传统业务逐步接入互联网,将现有 IT 系统逐步云化,包括建立自己的云与大数据中心,都已是普遍的现状。而这样做带来了两个巨大的挑战:
1. 传统运维工作正不断被云平台接管,那么除了监控与自动化,运维人还应该做什么?
2. 技术复杂性与资源规模都在快速增长,这样大体量的资源将成为企业沉重的成本负担,运维人又应该做什么?
本次分享将介绍阿里巴巴计算平台 SRE 团队如何通过智能数据化运营来 Hold 住这个全球最大的大数据集群与双 11 购物活动。
1. 运维与运营的定义:在这部分将介绍什么是运营,运维与运营的区别,为何以及如何向运营转型
2. 数据智能化运营建设过程:
如何更好地建设与治理运维大数据,以及如何使用这些数据,驱动运维向智能化运营转型,以提高运维团队效率,并使运维工作更智能化。
技术总监、运维团队负责人、运维人员。
随着微博广告业务体量的增长和业务复杂度的增加,传统运维体系在复杂的业务系统中面临众多挑战。故障定位困难、报警频发、效率低下,同时大量的软硬件资源、人力资源投入到广告业务当中,造成资源浪费、管理混乱、人员身心俱疲,更重要的是在这过程中,广告收入不断损失。
本次分享将带领大家一同探讨,在面对这些重大挑战的时候,我们如何利用数据驱动运维系统的升级;如何通过算法洞察广告业务系统;如何在 AIOps 的探索实践中,提升我们的服务质量,保障广告业务系统的可用性,从而减少广告收入的损失。
1. 复杂业务场景下的运维痛点
2. 智能运维体系的转型实践
3. 探索在 AIOps 的转型之路上
技术总监、运维团队负责人、运维人员。
时序 Metrics 数据在字节跳动内部应用广泛,覆盖率非常高,基本上所有的业务、服务、机器都会发送时序数据到 TSDB 进行数据的存储和查询。这些海量的时序 Metrics 数据的主要用途就是监控和报警。传统的基于阈值的监控和报警在使用上有诸多不便:一方面阈值的确定比较困难(尤其是有周期性的指标),并且随着业务的发展,阈值需要经常更改;另一方面,不同的业务对需要报警的时序类型有不同倾向(有的需要过滤抖动,有的只需要掉底报警)。
除此之外,同一个服务或者多个服务的不同报警规则之间由于缺乏关联关系,会使得报警风暴极易形成。本次分享,我们将介绍基于时序 Metrics 数据的智能监控在字节跳动的实践,这套实践方案已经在字节跳动内部推广,并且取得了很好的效果,可以帮助开发运维人员更准确、快速地发现并修复线上问题。
1. 传统阈值监控和报警的困境
2. 智能监控体系构建
3. 应用效果
4. 总结和展望
技术总监、运维团队负责人、运维人员。
在监控系统运行状态的时候,请求量和对应的失败量是一组常用的指标。工程师们常常会往请求量上附加一些标签,从请求的来源、处理过程等角度进行描述,我们把这些标签称作维度。这样一来,在故障发生的时候,指标在对应维度上就会表现出异常波动,工程师就能大概知道故障的范围和原因。比如对手机银行来说,维度可以包括交易类型、渠道、客户端版本等,如果失败请求集中在<转账功能>,这可能是转账应用出现了问题。对于一个系统来说,这样的维度组合有成千上万个,逐个配置报警是相当复杂的任务,维护成本也比较高。另一方面,一个比较大的维度组合,比如<转账功能>异常的时候,被它包含的那些维度组合,比如<转账功能,转入X行>、<转账功能、App 版本 Y>也会异常,产生报警风暴,干扰工程师判断。
本次分享将介绍百度的多维度报警算法,不需要逐个维度配置规则,就能够精准地给出失败集中的维度组合,在百度内部和外部客户的场景中都取得了良好的效果。
1. 背景
2. 基于请求量、失败量的多维度报警算法
3. 其他黄金指标的多维度报警算法
4. 各场景中的效果
技术总监、运维团队负责人、运维人员、运维平台研发人员、智能运维算法研发人员。
随着AI的发展,应用对AI需求的爆发,日益增加的业务复杂性和急剧扩张的业务规模给稳定性带来了极大挑战。为了能在平台稳定性方面取得质的提升,讯飞AI Cloud运维团队在2018年开始向SRE团队转型,针对AI业务的特性,基于容器等相关技术建设SRE系统工具,并在2019年创造了212天无故障的记录。本次演讲将重点分享讯飞AI Cloud是如何通过容器、kubernetes、prometheus等云原生技术栈与SRE理念的结合,实现SRE系统工具的建设,以及在SRE团队转型方面的经验和思考。
1. 团队SRE转型
2. 基于prometheus、zabbix的问题发现
3. 基于APM、EFK的故障处理
4. 基于kubernetes的容量管理