随着AI、Big Data、Cloud的逐渐成熟,FAAS、CAAS等技术的兴起... 展开 >
毕业于复旦大学,2009年加入百度,先后负责基础运维平台、运维数据仓库、智能化运维平台的研发,目前是百度运维平台研发和智能运维方向负责人。其所带领的团队在国际顶会(SIGCOMM、INFOCOM、CoNEXT、LISA、SREcon等)发表多篇重量级论文和演讲。
随着AI、Big Data、Cloud的逐渐成熟,FAAS、CAAS等技术的兴起,以及被运维业务的多样化和复杂化,很多传统的运维技术和解决方案已经不能满足当前运维所需,AIOps智能运维、大数据运维、ChatOps、SRE、Chaos Engineering、微服务与容器运维等新技术和方向应运而生,它们一方面把最前沿的技术结合到运维中来,一方面在人员角色、领域范围、文化等方面又有了很多扩展,让传统运维有了翻天覆地的变化。本专题将重点和大家探讨运维前沿技术趋势,及其最佳实践和落地方略,希望听众可以从中获益。
AIOps近年来已经逐渐代替DevOps,成为运维领域最具曝光度的名词。但与之相关的讨论更多在如何将机器学习算法应用于运维数据分析,而用AIOps来处理运维操作甚至是实现完整的运维系统,则较为少见。百度从14年起即开始在AIOps领域的探索,目前已经在智能故障自愈、智能运维操作、故障模拟仿真等方面具备了丰富的落地经验。
本次分享将从百度智能运维的整体架构开始,按照数据流和控制流两条线,介绍百度在智能运维研发领域的工程经验,并将重点介绍支撑这些的底层架构——百度智能运维研发框架(ARK),如何以可扩展的方式,将人的智慧融入到运维系统当中。
Maxcompute是阿里巴巴内部唯一的大数据处理平台,且在全球十几个地区提供公有云服务,并为上百家私有云输出计算能力。
作为支撑如此庞大系统的SRE团队,要面对的是EB级数据,TB级带宽,上百万块硬盘,还有上万的客户发工单。
我们在全流程的发布管理,全球的配置同步,高效的监控感知等基础运维领域都实现了高度的自动化,
同时,从底层硬件到上层应用各个环节,我们掌握并分析使用了大量的数据来帮助我们突破传统思路的局限。
本次聚焦于近期在平台落地的几项成果,多地域的容量线性规划调优,硬件故障发现及自愈,运行作业的数据化诊断,分享我们在构建下一代运维平台的探索和思考。
当前DevOps的浪潮席卷整个IT行业,给传统的运维工程师,运维技术都带来了巨大的挑战和革命性的的影响。所谓DevOps就是基于各种自动化部署和运维平台的工具链,辅以相应的规范流程进行协作,如何打通应用运维平台、数据库运维平台、监控系统、资产管理系统、云平台等系统,并高效的整合在一起,是DevOps能否实际落地的关键。在技术架构转型的过程中,运维人员如何面对这样的挑战,并能做到与时俱进,不被时代淘汰也是一个严峻的课题。
本次分享我们将聚焦在研发和运维如何协同工作,通过微服务框架,基于CMDB系统打造统一的运维入口,权限控制,接口管理,基础服务等,构建弹性的,灵活的即插即用型运维门户。
本次演讲将从故障前、中、后三个阶段介绍美团点评如何通过故障定位系统、事故运营系统、风险管理平台打造可用性持续提升的闭环,保障全集团业务线高速稳定增长。
故障中:研发了“天网”故障自动定位系统,实现全业务指标异常监测,全链路异常自动定位root cause,全事件追踪快速止损。
故障后:通过事故运营系统完成事故通知、定级、分类、TODO跟踪等运营工作。
故障前:综合运营数据打造风险管理平台,全业务周期性风险评估,避免事故发生。
网易云对内对外支撑的重点在于基于Kubernetes的容器平台,已经在线生产管理运行超过1000天,集群规模最大达30000台,支撑了很多内部重点项目,减轻了业务方瞬时流量增加所带来的运维成本,比较早期的业务平台的微服务化采取的是Dubbo,后来新的业务使用SpringCloud,云平台组基于Kubernetes推出了Service Mesh服务治理平台,将微服务部分工作下沉到平台层完成,并在计费中心,云管平台,互金项目中进行落地,本次分享在大规模Kubernetes容器平台中落地Service Mesh的实践。
监控系统经历大数据转型后迎来AI浪潮。这个主题分享腾讯织云监控的演进过程和考量因素。结合实际案例场景展示织云从用户端到IAAS层的立体化监控理念和数据化DevOps理念。同时分享织云在AIOps领域的智能检测、根因分析和ROOT根源分析实践场景,展望未来监控转型方向。
创业型公司使用开源或者人肉的方式进行线上运维,有着这样一些痛点:
创业型公司,如何在很短的时间内,自研扩展性较强的自动化运维平台,以解决上述痛点,是今天要分享的内容。