云原生助力讯飞AI Cloud SRE转型实践

所属专题:AIOps 落地实践

嘉宾 : 章清 | 科大讯飞股份有限公司SRE架构师

会议室 : 307

讲师介绍

专题演讲嘉宾:章清

科大讯飞股份有限公司SRE架构师

章清,2014年加入科大讯飞,当前在云计算AI Cloud负责SRE团队,多年从事自动化和智能化运维工具平台的研发演进及SRE体系的建设和推广工作,在运维域云原生技术和传统运维向SRE转型等领域均有深入的探索和实践。

议题介绍

演讲:云原生助力讯飞AI Cloud SRE转型实践

随着AI的发展,应用对AI需求的爆发,日益增加的业务复杂性和急剧扩张的业务规模给稳定性带来了极大挑战。为了能在平台稳定性方面取得质的提升,讯飞AI Cloud运维团队在2018年开始向SRE团队转型,针对AI业务的特性,基于容器等相关技术建设SRE系统工具,并在2019年创造了212天无故障的记录。本次演讲将重点分享讯飞AI Cloud是如何通过容器、kubernetes、prometheus等云原生技术栈与SRE理念的结合,实现SRE系统工具的建设,以及在SRE团队转型方面的经验和思考。

内容大纲

1. 团队SRE转型

  • AI服务运维的难点和挑战
  • 传统运维向SRE的转型实践

2. 基于prometheus、zabbix的问题发现

  • AI服务全链路的多维指标采集和根因分析
  • AI服务海量监控指标下的告警信噪比优化

3. 基于APM、EFK的故障处理

  • 大规模AI服务的快速排障和应急实践
  • 故障自愈探索实践

4. 基于kubernetes的容量管理

  • AI服务超大模型资源的快速更新实践
  • 跨AI服务的自动化弹性调度实践

听众收益

  1. 了解传统运维向SRE转型的实践经验和收益
  2. 了解讯飞AI Cloud基于云原生技术加速SRE转型的实践经验
  3. 了解讯飞AI Cloud在监控指标采集、根因分析和告警优化上的实践经验
  4. 了解讯飞AI Cloud在快速排障、故障自愈上的探索实践
  5. 了解讯飞AI Cloud在自动化容量管理上的实践经验

适合人群

  1. 对运维域云原生技术和SRE具有一定了解的运维或开发者
  2. 对云原生技术在运维域的应用和实践感兴趣的运维或开发者
  3. 对传统运维向SRE转型和SRE实践感兴趣的运维或开发者

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86 17310043226