2013年加入百度,负责百度服务管理系统和监控平台高可用保障等工作。在分布式系统和大规模数据处理、可用性工程方向有广泛的实践经验。
2013年加入百度,负责百度服务管理系统和监控平台高可用保障等工作。在分布式系统和大规模数据处理、可用性工程方向有广泛的实践经验。
百度运维大数据平台的实时计算和存储系统(ODW),是百度智能运维团队自研的一套分布式数据处理系统。
作为百度监控系统的底层,它承载了万亿级监控数据的汇聚计算和存储查询需求,保障了百度所有核心业务能够及时准确地感知故障并完成故障处置,是保障百度业务高可靠的重要环节。
面对这样一个日均处理万亿级别数据,包含数十个模块和数百个节点的服务。它的可用性保障,包含SLI制定、容量建设、故障感知、自愈等问题,都是我们面对的重大挑战。
本次分享将详细解析我们在ODW系统架构及高可用建设方面所做的工作。