运维新趋势

会议室:第二会议厅C
出品人:曲显平

随着AI、Big Data、Cloud的逐渐成熟,FAAS、CAAS等技术的兴起... 展开 >

专题出品人:曲显平

百度 智能云事业部技术经理

毕业于复旦大学,2009年加入百度,先后负责基础运维平台、运维数据仓库、智能化运维平台的研发,目前是百度运维平台研发和智能运维方向负责人。其所带领的团队在国际顶会(SIGCOMM、INFOCOM、CoNEXT、LISA、SREcon等)发表多篇重量级论文和演讲。

地点:第二会议厅C

专题:运维新趋势

随着AI、Big Data、Cloud的逐渐成熟,FAAS、CAAS等技术的兴起,以及被运维业务的多样化和复杂化,很多传统的运维技术和解决方案已经不能满足当前运维所需,AIOps智能运维、大数据运维、ChatOps、SRE、Chaos Engineering、微服务与容器运维等新技术和方向应运而生,它们一方面把最前沿的技术结合到运维中来,一方面在人员角色、领域范围、文化等方面又有了很多扩展,让传统运维有了翻天覆地的变化。本专题将重点和大家探讨运维前沿技术趋势,及其最佳实践和落地方略,希望听众可以从中获益。

  1. 运维前沿技术分享,如AIOps、大数据运维、ChatOps、SRE、Chaos Engineering、微服务与容器运维等;
  2. 运维新趋势的最佳实践和落地方略;
  3. 探讨和畅想未来的运维趋势,一起构建运维生态。

by 王艺

百度云
智能运维架构团队负责人
智能运维的工程与架构
所属领域: 运维

AIOps近年来已经逐渐代替DevOps,成为运维领域最具曝光度的名词。但与之相关的讨论更多在如何将机器学习算法应用于运维数据分析,而用AIOps来处理运维操作甚至是实现完整的运维系统,则较为少见。百度从14年起即开始在AIOps领域的探索,目前已经在智能故障自愈、智能运维操作、故障模拟仿真等方面具备了丰富的落地经验。

本次分享将从百度智能运维的整体架构开始,按照数据流和控制流两条线,介绍百度在智能运维研发领域的工程经验,并将重点介绍支撑这些的底层架构——百度智能运维研发框架(ARK),如何以可扩展的方式,将人的智慧融入到运维系统当中。

by 周涌杰(矮鱼)

阿里巴巴
大数据计算服务保障平台研发技术专家

Maxcompute是阿里巴巴内部唯一的大数据处理平台,且在全球十几个地区提供公有云服务,并为上百家私有云输出计算能力。

作为支撑如此庞大系统的SRE团队,要面对的是EB级数据,TB级带宽,上百万块硬盘,还有上万的客户发工单。

我们在全流程的发布管理,全球的配置同步,高效的监控感知等基础运维领域都实现了高度的自动化,
同时,从底层硬件到上层应用各个环节,我们掌握并分析使用了大量的数据来帮助我们突破传统思路的局限。

本次聚焦于近期在平台落地的几项成果,多地域的容量线性规划调优,硬件故障发现及自愈,运行作业的数据化诊断,分享我们在构建下一代运维平台的探索和思考。

by 史季强

京东物流
系统架构部架构师,运维团队负责人

当前DevOps的浪潮席卷整个IT行业,给传统的运维工程师,运维技术都带来了巨大的挑战和革命性的的影响。所谓DevOps就是基于各种自动化部署和运维平台的工具链,辅以相应的规范流程进行协作,如何打通应用运维平台、数据库运维平台、监控系统、资产管理系统、云平台等系统,并高效的整合在一起,是DevOps能否实际落地的关键。在技术架构转型的过程中,运维人员如何面对这样的挑战,并能做到与时俱进,不被时代淘汰也是一个严峻的课题。

听众受益

本次分享我们将聚焦在研发和运维如何协同工作,通过微服务框架,基于CMDB系统打造统一的运维入口,权限控制,接口管理,基础服务等,构建弹性的,灵活的即插即用型运维门户。

by 洪丹

美团点评
运维总监

本次演讲将从故障前、中、后三个阶段介绍美团点评如何通过故障定位系统、事故运营系统、风险管理平台打造可用性持续提升的闭环,保障全集团业务线高速稳定增长。

故障中:研发了“天网”故障自动定位系统,实现全业务指标异常监测,全链路异常自动定位root cause,全事件追踪快速止损。

故障后:通过事故运营系统完成事故通知、定级、分类、TODO跟踪等运营工作。

故障前:综合运营数据打造风险管理平台,全业务周期性风险评估,避免事故发生。

by 刘超

网易云
解决方案总架构师
基于Service Mesh的海量容器管理平台实践
所属领域: 运维、 Service Mesh

网易云对内对外支撑的重点在于基于Kubernetes的容器平台,已经在线生产管理运行超过1000天,集群规模最大达30000台,支撑了很多内部重点项目,减轻了业务方瞬时流量增加所带来的运维成本,比较早期的业务平台的微服务化采取的是Dubbo,后来新的业务使用SpringCloud,云平台组基于Kubernetes推出了Service Mesh服务治理平台,将微服务部分工作下沉到平台层完成,并在计费中心,云管平台,互金项目中进行落地,本次分享在大规模Kubernetes容器平台中落地Service Mesh的实践。

听众受益

  1. 了解Service Mesh相对于Dubbo和SpringCloud的优势;
  2. 在网易内部产品使用Service Mesh的落地实践;
  3. 在大规模Kubernetes集群场景下的优化实践。

by 吴树生

腾讯
高级工程师
腾讯织云智能监控实践
所属领域: 运维

监控系统经历大数据转型后迎来AI浪潮。这个主题分享腾讯织云监控的演进过程和考量因素。结合实际案例场景展示织云从用户端到IAAS层的立体化监控理念和数据化DevOps理念。同时分享织云在AIOps领域的智能检测、根因分析和ROOT根源分析实践场景,展望未来监控转型方向。

听众受益

  1. 了解监控发展变化的背景和趋势;
  2. 腾讯织云的海量监控架构;
  3. 腾讯织云的智能化应用场景。

by 沈剑

58速运
CTO

创业型公司使用开源或者人肉的方式进行线上运维,有着这样一些痛点:

  1. 集群初始化、系统打包、系统自动化上线等需求多多;
  2. 集群类型多样,例如前端/站点/服务,各集群初始化、打包、上线的流程都不一样;
  3. 即使是同一种类型,例如服务,使用的技术栈不同,例如dubbo/DSF等,集群初始化、系统打包、自动化上线的步骤也不一样;
  4. 开源软件只能满足一部分需求,并且难以定制化;
  5. 缺乏像大公司一样的人力、物力和时间来研发大平台;

创业型公司,如何在很短的时间内,自研扩展性较强的自动化运维平台,以解决上述痛点,是今天要分享的内容。

交通指南

© 2019 Baidu - GS(2018)5572号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方