百度六年运维工作经验,目前担任搜索在线服务运维团队经理,负责百度搜索服务的可靠性,接入质量,性能,防攻击,拥抱业务等等方面的工作。在接入领域,有五年的积累和沉淀。主导设计和研发了百度第一代基于实时容量的内网全自动流量调度系统;作为核心成员设计和实现了中国首家复杂网站百度搜索的全站HTTPS改造,引领了中国互联网HTTPS的热潮。在接入技术领域引入机器学习技术,目前团队设计和开发的百度智能流量识别系统,每天实时的对超千亿的流量进行识别和过滤,为系统提供高质量的保护和服务。
百度六年运维工作经验,目前担任搜索在线服务运维团队经理,负责百度搜索服务的可靠性,接入质量,性能,防攻击,拥抱业务等等方面的工作。在接入领域,有五年的积累和沉淀。主导设计和研发了百度第一代基于实时容量的内网全自动流量调度系统;作为核心成员设计和实现了中国首家复杂网站百度搜索的全站HTTPS改造,引领了中国互联网HTTPS的热潮。在接入技术领域引入机器学习技术,目前团队设计和开发的百度智能流量识别系统,每天实时的对超千亿的流量进行识别和过滤,为系统提供高质量的保护和服务。
超大规模在线分布式系统,每时每刻都响应着无数的用户真实请求,在服务大规模异常的时刻,尽可能的响应用户请求,而不是拒绝,尽可能快的自动化止损甚至自愈,尽可能准的根因定位甚至自动化智能化,这些都给我们的工作提出了越来越高的要求和挑战。
为此,我们在系统架构、流式数据处理、动态决策等多个层面进行了系统化的设计。借助这一套系统,我们实现了分钟级到十秒级最终到秒级的感知和决策止损系统,大幅度的的减少了故障时刻的损失量级和故障持续时间。本次分享,也主要集中在以上几个方面我们的一些实战经验。