王艺,百度云智能运维架构团队负责人。小学起即踏上了程序员的道路,一路诸多曲折。2010年加入百度,先后负责百度链接库、百度志愿计算、百度统一资源管理的研发,经历过千亿级链接的洗礼,也调度过数十万量级的服务器,热衷于直面架构技术挑战,在分布式计算,分布式资源、任务调度方面经验丰富。15年加入百度运维之后,做为智能运维架构方向的技术负责人,致力于为智能运维平台研发提供高性能、高可用、可扩展的系统架构和基础设施。
王艺,百度云智能运维架构团队负责人。小学起即踏上了程序员的道路,一路诸多曲折。2010年加入百度,先后负责百度链接库、百度志愿计算、百度统一资源管理的研发,经历过千亿级链接的洗礼,也调度过数十万量级的服务器,热衷于直面架构技术挑战,在分布式计算,分布式资源、任务调度方面经验丰富。15年加入百度运维之后,做为智能运维架构方向的技术负责人,致力于为智能运维平台研发提供高性能、高可用、可扩展的系统架构和基础设施。
AIOps近年来已经逐渐代替DevOps,成为运维领域最具曝光度的名词。但与之相关的讨论更多在如何将机器学习算法应用于运维数据分析,而用AIOps来处理运维操作甚至是实现完整的运维系统,则较为少见。百度从14年起即开始在AIOps领域的探索,目前已经在智能故障自愈、智能运维操作、故障模拟仿真等方面具备了丰富的落地经验。
本次分享将从百度智能运维的整体架构开始,按照数据流和控制流两条线,介绍百度在智能运维研发领域的工程经验,并将重点介绍支撑这些的底层架构——百度智能运维研发框架(ARK),如何以可扩展的方式,将人的智慧融入到运维系统当中。