张颖莹,花名丛戎。 阿里巴巴高级算法工程师。毕业于上海财经大学,研究领域包括运筹优化、数据挖掘和统计分析,研究成果发表于 SSCI 和国内核心期刊并被引用多次。2016 年加入阿里巴巴大数据基础工程技术团队,致力于数据化智能运维的探索和实践。曾主导或参与了阿里巴巴公共云计算资源分配优化、通用计算平台大规模集群的应用排布优化等项目,帮助团队在多个智能运维场景落地。目前的方向是运维领域的异常检测、日志聚类和根因分析等通用分析能力构筑以及特定场景的运筹优化。
张颖莹,花名丛戎。 阿里巴巴高级算法工程师。毕业于上海财经大学,研究领域包括运筹优化、数据挖掘和统计分析,研究成果发表于 SSCI 和国内核心期刊并被引用多次。2016 年加入阿里巴巴大数据基础工程技术团队,致力于数据化智能运维的探索和实践。曾主导或参与了阿里巴巴公共云计算资源分配优化、通用计算平台大规模集群的应用排布优化等项目,帮助团队在多个智能运维场景落地。目前的方向是运维领域的异常检测、日志聚类和根因分析等通用分析能力构筑以及特定场景的运筹优化。
阿里巴巴大数据运维团队经过几年运维数据中台的建设,在数据化运维(DataOps)方向的前沿问题上积累了很多实践经验。本次分享将结合具体实践案例,阐述如何通过数据实体服务,基于机器学习、运筹优化、自然语言处理和统计分析构造的智能分析服务,以及运维中间件服务,解决运维领域面临的稳定性、成本、效率三大基本问题。具体包括:
(1)基于异常检测和日志聚类结果构建图模型进行根因推断,并利用自愈体系形成集群诊断完整闭环以保障稳定性;
(2)通过构建大规模整数规划模型优化应用在集群间的排布,通过短期精准预测对公共云用户资源进行动态分配,从宏观微观两个角度阐述成本的优化方法;
(3)利用报错日志打造智能答疑来提升运维人员效率,利用机器学习模型提升用户数据同步任务的效率,并结合案例介绍效率与成本之间权衡的思想。通过本次演讲,相信无论是运维人员还是算法工程师,都可以从阿里在智能运维领域积累的宝贵经验中获得启发,深入理解AI算法如何基于数据中台能力在真实的运维场景中落地。
1、阿里巴巴大数据运维背景
2、智能运维保障稳定性实践
2.1 基于黄金指标的异常发现
2.2 基于自然语言处理的日志挖掘
2.3 基于图模型的根因推断
2.4 利用感知/决策/执行形成集群诊断闭环
3、智能运维优化成本实践
3.1 宏观——跨集群应用排布优化
3.2 微观——公共云资源动态分配
4、智能运维提升效率实践
4.1 运维人员提效——基于报错日志的智能答疑
4.2 用户提效——数据同步任务速率优化
4.3 效率与成本的权衡——跨集群复制的策略选择
5、数据中台建设思路
5.1 数据实体服务
5.2 智能分析服务
5.3 运维中间件服务
1、了解阿里巴巴大数据运维场景下的智能运维完整思路与丰富实践案例,为企业级智能运维提供借鉴;
2、如何基于异常检测、日志聚类、根因分析等通用能力,利用自愈体系打造完整的集群诊断闭环;
3、如何从宏微观两个角度进行成本优化;
4、如何帮助用户和运维人员提升效率;
5、数据中台建设的经验和总结。