会议：2019年10月17-19日

地址：上海·宝华万豪酒店

热线：+86 17310043226

QCon 北京2020

精彩继续>>

QCon 北京2020

智能运维

会议室：百宴厅3

出品人：庄振运

随着互联网数据量的变大，运维业务的多样化和复杂化，以及对运维服务质量要求的提高（... 展开 >

演讲议题

出品人介绍

Topic 1

百度 AIOps 黄金指标异常检测技术实践

王博
百度资深运维工程师

 运维
Topic 2

Facebook 大数据模块快速部署和实时更新

冯翼
Facebook 高级性能架构工程师

 运维
Topic 3

Kubernetes 和 Docker 容器在领英的落地实践

慕腾飞
LinkedIn 基础架构技术经理

 运维 Kubernetes
Topic 4

DataOps - 数据驱动的智能运维

张颖莹
阿里巴巴高级算法工程师

 运维

专题出品人：庄振运

Facebook 计算机性能高级工程师

庄振运，目前在美国硅谷 Facebook 任职。博士毕业于佐治亚理工，曾经在 Oracle、SalesForce、LinkedIn 等公司工作过，在很多领域（包括 CDN 网络、Java、系统、互联网、运维等）从事过性能优化，数据中心容量规划的工作。在国际会议期刊发表论文近 40 篇，十几项专利。

工作之余喜欢国学，欣赏古代士大夫的价值观和责任感。业余爱好是研读文史诗词，凭吊古圣先贤，游览名山大川，品尝各地美食。

地点：百宴厅3

专题：智能运维

随着互联网数据量的变大，运维业务的多样化和复杂化，以及对运维服务质量要求的提高（比如低成本，低延迟，高防范），很多传统的运维技术和解决方案已经不能满足当前运维所需。另一方面，机器学习（ML）和人工智能（AI）技术的飞速发展，推生了智能运维 AIOps （Artificial Intelligence for IT Operations），这是运维未来的必然趋势。

AIOps 还是一个相对较新的词，其设计的技术也相对前沿，业界还在积极探索。本专题将重点和大家探讨智能运维相关的领域，包括前沿技术及其优秀落地实践，希望听众可以从中获益。

by 王博

百度

资深运维工程师

百度 AIOps 黄金指标异常检测技术实践

所属领域：运维

请求量、响应时间、错误数和容量是运维领域的四大黄金指标，针对黄金指标的异常检测技术是故障发现和故障诊断的基础。但一直以来，黄金指标异常检测技术都是一个复杂的问题。一方面，需要算法针对不同指标训练不同的模型，并且要能满足 Oncall 工程师对高准确召回率的要求，另一方面，历史数据集中的故障数据比例不高，数据标注成本较大，这就要求算法自己有能力识别并排除噪声数据，第三，故障发现、诊断、自愈等场景对于准确率和召回率的倾向不同，算法需要具备按场景调节的能力。本次演讲，我们将介绍百度 AIOps 黄金指标异常检测技术。我们的算法已经覆盖了百度所有业务线的故障发现，并且也在故障诊断和自愈场景有了很多的实践。

内容大纲

1. 黄金指标监控背景

2. 黄金指标监控体系

2.1 基于高斯核密度估计的延迟监控方法

2.2 基于Beta分布核密度估计的容量监控方法

2.3 基于二项分布的错误数监控方法

2.4 基于泊松分布的流量监控方法

3. 应用效果

4. 总结及展望

听众受益

1. 运维黄金指标的传统监控方法及其缺陷；

2. 基于概率统计的运维黄金指标监控方法。

by 冯翼

Facebook

高级性能架构工程师

Facebook 大数据模块快速部署和实时更新

所属领域：运维

作为全球领先的社交网络公司，Facebook 的基础架构在很多方面都面临性能和规模的挑战。为了增加用户数量和提高用户得使用体验，我们越来越多的使用统计学习并进行多角度预测，为用户快速地提供新鲜的感兴趣的信息。这就需要系统做到软件的快速部署和信息的实时更新，其中软件部署是互联网服务运维的主要工作之一。保证软件部署速度和数据实时更新会直接关系到系统维护成本和运营收入，特别是保证大规模分布式系统里面大模块内存数据的实时性是极具挑战性的工作。

我们首先介绍 Facebook 服务的基本架构和规模，在此基础上我们会分析软件部署速度和数据实时更新对于运维成本和运营收入的影响。我们通过两个具体用例来说明如何巧妙运用传统点对点加速部署并保证更新。这两个实例将分别展示:
1. 如何大幅度降低软件部署所需要的时间和成本;
2. 如何提高分布式系统中灾难恢复的速度。

最后和听众分享我们在应用中遇到的一些问题和解决方法。

这个演讲会由广及深，涵盖大规模互联网服务的基础架构，营收，运维，和技术实现四个层面；面向听众涵盖经理人，产品经理，运维和开发工程师。

by 慕腾飞

基础架构技术经理

Kubernetes 和 Docker 容器在领英的落地实践

所属领域：运维、 Kubernetes

LinkedIn（领英）是全球领先的职场社交平台，其基础架构覆盖多个数据中心和数十万台主机资源。LinkedIn 现在有一套完整的集群资源调度系统，支持调度大规模的长时间运行的服务和批处理任务，目标是提高开发人员的工作效率和服务器利用率。

随着机器学习多样化计算任务需求增加以及未来 Azure 迁移的战略目标，我们开始设计落地 Kubernetes 还有 Docker
容器相关的云原生开源技术方案，包括如何无缝集成落地到现有的大规模基础设施中非常具有挑战性。我们首先介绍领英的集群管理系统架构和规模，然后探讨我们落地开源技术方案遇到的挑战以及解决方案，最后再分享我们在生产和集成过程中吸取的经验教训。

听众受益

1.本讲座为大规模的互联网公司集群管理生态系统提供了案例研究。它包括集群管理器，工作流协调器，网络策略实施，容器运行时等。所有这些协同工作为大规模以应用程序为中心的基础架构提供了坚实的基础。向听众展示这些大规模系统的见解是非常有价值的，特别是在有特定大规模系统设计权衡的基础上，哪些方法运作良好以及可以改进哪些方面。

2.本讲座分享在大规模的生产环境中整合新的开源技术 Kubernetes 和 Docker 容器期间吸取的经验教训。尤其是将新的技术无缝集成落地到现有的基础设施中遇到的挑战。这些经验可以让听众权衡自己的系统整合落地方案，少走很多弯路。

by 张颖莹

阿里巴巴

高级算法工程师

DataOps - 数据驱动的智能运维

所属领域：运维

阿里巴巴大数据运维团队经过几年运维数据中台的建设，在数据化运维（DataOps）方向的前沿问题上积累了很多实践经验。本次分享将结合具体实践案例，阐述如何通过数据实体服务，基于机器学习、运筹优化、自然语言处理和统计分析构造的智能分析服务，以及运维中间件服务，解决运维领域面临的稳定性、成本、效率三大基本问题。具体包括：

（1）基于异常检测和日志聚类结果构建图模型进行根因推断，并利用自愈体系形成集群诊断完整闭环以保障稳定性；

（2）通过构建大规模整数规划模型优化应用在集群间的排布，通过短期精准预测对公共云用户资源进行动态分配，从宏观微观两个角度阐述成本的优化方法；

（3）利用报错日志打造智能答疑来提升运维人员效率，利用机器学习模型提升用户数据同步任务的效率，并结合案例介绍效率与成本之间权衡的思想。通过本次演讲，相信无论是运维人员还是算法工程师，都可以从阿里在智能运维领域积累的宝贵经验中获得启发，深入理解AI算法如何基于数据中台能力在真实的运维场景中落地。