谷歌索引了千亿级别的网页,每秒可以处理超过百万的网页,并达到最短仅数秒的端到端延迟。本演讲将介绍在设计这样一个大规模实时处理系统时的一些考量和原则。
内容大纲
1. 建库系统介绍
- 一篇网页的一生
- 页面内容标注
- 建索引
- 基于微服务的分布式建库系统架构
2. 大规模离线建库系统设计
- 微服务架构
- 数据交互
- 并发与多线程
- 调研实验支持
- 可调试性
- 研发效率
听众受益
- 系统规模变大后常遇到的问题
- 现代在做折衷时的一些考量点
- 多语言混合开发中的一些坑
适合人群
架构方向工程师,有一定分布式系统研发经验、多线程研发经验。
英文介绍
Google Search indexed hundreds of billions of web pages and processes over a million of web pages per second with shortest a few seconds end-to-end latency.This presentation will introduce the generic considerations and principles of designing such a large-scale realtime processing system.
Outlines
1. Intro to indexing system
- Life of a web page
- Annotate page content
- Create index
- µService-based indexing system architecture
2. Large-scale Indexing system design
- The µService architecture
- Data Exchange
- Concurrency and multithread
- Experiment support
- Debuggability
- Developer velocity