运维新趋势

会议室：第二会议厅C

出品人：曲显平

随着AI、Big Data、Cloud的逐渐成熟，FAAS、CAAS等技术的兴起... 展开 >

旗下议题

出品人介绍

Topic 1

智能运维的工程与架构

王艺
百度云智能运维架构团队负责人

 运维
Topic 2

阿里巴巴大数据运维平台实践

周涌杰（矮鱼）
阿里巴巴大数据计算服务保障平台研发技术专家

 运维
Topic 3

即插即用型运维门户建设实践

史季强
京东物流系统架构部架构师，运维团队负责人

 运维
Topic 4

美团点评可用性保障实践

洪丹
美团点评运维总监

 运维
Topic 5

基于Service Mesh的海量容器管理平台实践

刘超
网易云解决方案总架构师

 运维 Service Mesh
Topic 6

腾讯织云智能监控实践

吴树生
腾讯高级工程师

 运维
Topic 7

创业型公司2周自研通用可扩展自动化上线平台

沈剑
58速运 CTO

运维

专题出品人：曲显平

百度智能云事业部技术经理

毕业于复旦大学，2009年加入百度，先后负责基础运维平台、运维数据仓库、智能化运维平台的研发，目前是百度运维平台研发和智能运维方向负责人。其所带领的团队在国际顶会（SIGCOMM、INFOCOM、CoNEXT、LISA、SREcon等）发表多篇重量级论文和演讲。

地点：第二会议厅C

专题：运维新趋势

随着AI、Big Data、Cloud的逐渐成熟，FAAS、CAAS等技术的兴起，以及被运维业务的多样化和复杂化，很多传统的运维技术和解决方案已经不能满足当前运维所需，AIOps智能运维、大数据运维、ChatOps、SRE、Chaos Engineering、微服务与容器运维等新技术和方向应运而生，它们一方面把最前沿的技术结合到运维中来，一方面在人员角色、领域范围、文化等方面又有了很多扩展，让传统运维有了翻天覆地的变化。本专题将重点和大家探讨运维前沿技术趋势，及其最佳实践和落地方略，希望听众可以从中获益。

运维前沿技术分享，如AIOps、大数据运维、ChatOps、SRE、Chaos Engineering、微服务与容器运维等；
运维新趋势的最佳实践和落地方略；
探讨和畅想未来的运维趋势，一起构建运维生态。

by 王艺

百度云

智能运维架构团队负责人

智能运维的工程与架构

所属领域：运维

AIOps近年来已经逐渐代替DevOps，成为运维领域最具曝光度的名词。但与之相关的讨论更多在如何将机器学习算法应用于运维数据分析，而用AIOps来处理运维操作甚至是实现完整的运维系统，则较为少见。百度从14年起即开始在AIOps领域的探索，目前已经在智能故障自愈、智能运维操作、故障模拟仿真等方面具备了丰富的落地经验。

本次分享将从百度智能运维的整体架构开始，按照数据流和控制流两条线，介绍百度在智能运维研发领域的工程经验，并将重点介绍支撑这些的底层架构——百度智能运维研发框架（ARK），如何以可扩展的方式，将人的智慧融入到运维系统当中。

by 周涌杰（矮鱼）

阿里巴巴

大数据计算服务保障平台研发技术专家

阿里巴巴大数据运维平台实践

所属领域：运维

Maxcompute是阿里巴巴内部唯一的大数据处理平台，且在全球十几个地区提供公有云服务，并为上百家私有云输出计算能力。

作为支撑如此庞大系统的SRE团队，要面对的是EB级数据，TB级带宽，上百万块硬盘，还有上万的客户发工单。

我们在全流程的发布管理，全球的配置同步，高效的监控感知等基础运维领域都实现了高度的自动化,
同时，从底层硬件到上层应用各个环节，我们掌握并分析使用了大量的数据来帮助我们突破传统思路的局限。

本次聚焦于近期在平台落地的几项成果，多地域的容量线性规划调优，硬件故障发现及自愈，运行作业的数据化诊断，分享我们在构建下一代运维平台的探索和思考。

by 史季强

京东物流

系统架构部架构师，运维团队负责人

即插即用型运维门户建设实践

所属领域：运维

当前DevOps的浪潮席卷整个IT行业，给传统的运维工程师，运维技术都带来了巨大的挑战和革命性的的影响。所谓DevOps就是基于各种自动化部署和运维平台的工具链，辅以相应的规范流程进行协作，如何打通应用运维平台、数据库运维平台、监控系统、资产管理系统、云平台等系统，并高效的整合在一起，是DevOps能否实际落地的关键。在技术架构转型的过程中，运维人员如何面对这样的挑战，并能做到与时俱进，不被时代淘汰也是一个严峻的课题。

听众受益

本次分享我们将聚焦在研发和运维如何协同工作，通过微服务框架，基于CMDB系统打造统一的运维入口，权限控制，接口管理，基础服务等，构建弹性的，灵活的即插即用型运维门户。

by 洪丹

美团点评

运维总监

美团点评可用性保障实践

所属领域：运维

本次演讲将从故障前、中、后三个阶段介绍美团点评如何通过故障定位系统、事故运营系统、风险管理平台打造可用性持续提升的闭环，保障全集团业务线高速稳定增长。

故障中：研发了“天网”故障自动定位系统，实现全业务指标异常监测，全链路异常自动定位root cause，全事件追踪快速止损。

故障后：通过事故运营系统完成事故通知、定级、分类、TODO跟踪等运营工作。

故障前：综合运营数据打造风险管理平台，全业务周期性风险评估，避免事故发生。

by 刘超

网易云

解决方案总架构师

基于Service Mesh的海量容器管理平台实践

所属领域：运维、 Service Mesh

网易云对内对外支撑的重点在于基于Kubernetes的容器平台，已经在线生产管理运行超过1000天，集群规模最大达30000台，支撑了很多内部重点项目，减轻了业务方瞬时流量增加所带来的运维成本，比较早期的业务平台的微服务化采取的是Dubbo，后来新的业务使用SpringCloud，云平台组基于Kubernetes推出了Service Mesh服务治理平台，将微服务部分工作下沉到平台层完成，并在计费中心，云管平台，互金项目中进行落地，本次分享在大规模Kubernetes容器平台中落地Service Mesh的实践。

听众受益

了解Service Mesh相对于Dubbo和SpringCloud的优势；
在网易内部产品使用Service Mesh的落地实践；
在大规模Kubernetes集群场景下的优化实践。

by 吴树生

腾讯

高级工程师

腾讯织云智能监控实践

所属领域：运维

监控系统经历大数据转型后迎来AI浪潮。这个主题分享腾讯织云监控的演进过程和考量因素。结合实际案例场景展示织云从用户端到IAAS层的立体化监控理念和数据化DevOps理念。同时分享织云在AIOps领域的智能检测、根因分析和ROOT根源分析实践场景，展望未来监控转型方向。

听众受益

了解监控发展变化的背景和趋势；
腾讯织云的海量监控架构；
腾讯织云的智能化应用场景。

by 沈剑

58速运

CTO

创业型公司2周自研通用可扩展自动化上线平台

所属领域：运维

创业型公司使用开源或者人肉的方式进行线上运维，有着这样一些痛点：

集群初始化、系统打包、系统自动化上线等需求多多；
集群类型多样，例如前端/站点/服务，各集群初始化、打包、上线的流程都不一样；
即使是同一种类型，例如服务，使用的技术栈不同，例如dubbo/DSF等，集群初始化、系统打包、自动化上线的步骤也不一样；
开源软件只能满足一部分需求，并且难以定制化；
缺乏像大公司一样的人力、物力和时间来研发大平台；

创业型公司，如何在很短的时间内，自研扩展性较强的自动化运维平台，以解决上述痛点，是今天要分享的内容。

运维新趋势

出品人：曲显平

王艺

周涌杰（矮鱼）

史季强

洪丹

刘超

吴树生

沈剑

专题出品人：曲显平

百度 智能云事业部技术经理

专题出品人：曲显平

百度 智能云事业部技术经理

地点：第二会议厅C

专题：运维新趋势

by 王艺

百度云

by 周涌杰（矮鱼）

阿里巴巴

by 史季强

京东物流

听众受益

by 洪丹

美团点评

by 刘超

网易云

听众受益

by 吴树生

腾讯

听众受益

by 沈剑

58速运

关注主办方（InfoQ）

联系我们

交通指南

全球QCon大会

伦敦/2018年3月5-7日

北京/2018年4月18-22日

圣保罗/2018年5月9-11日

纽约/2018年6月27-29日

上海/2018年10月18日-20日

旧金山/2018年11月5-7日

百度智能云事业部技术经理

百度智能云事业部技术经理