章清,2014年加入科大讯飞,当前在云计算AI Cloud负责SRE团队,多年从事自动化和智能化运维工具平台的研发演进及SRE体系的建设和推广工作,在运维域云原生技术和传统运维向SRE转型等领域均有深入的探索和实践。
章清,2014年加入科大讯飞,当前在云计算AI Cloud负责SRE团队,多年从事自动化和智能化运维工具平台的研发演进及SRE体系的建设和推广工作,在运维域云原生技术和传统运维向SRE转型等领域均有深入的探索和实践。
随着AI的发展,应用对AI需求的爆发,日益增加的业务复杂性和急剧扩张的业务规模给稳定性带来了极大挑战。为了能在平台稳定性方面取得质的提升,讯飞AI Cloud运维团队在2018年开始向SRE团队转型,针对AI业务的特性,基于容器等相关技术建设SRE系统工具,并在2019年创造了212天无故障的记录。本次演讲将重点分享讯飞AI Cloud是如何通过容器、kubernetes、prometheus等云原生技术栈与SRE理念的结合,实现SRE系统工具的建设,以及在SRE团队转型方面的经验和思考。
1. 团队SRE转型
2. 基于prometheus、zabbix的问题发现
3. 基于APM、EFK的故障处理
4. 基于kubernetes的容量管理