翟佳毕业于中科院计算所,目前就职于一家下一代实时处理初创公司 Streamlio,是 streamlio 的核心创始成员之一。在此之前任职于 EMC,是北京 EMC 实时处理平台的技术负责人。主要从事实时计算和分布式存储系统的相关开发,此外也在开源项目 Apache BookKeeper, Distributedlog,DC/OS 等项目中持续贡献代码。
Twitter 每天要接收和处理用户发送的数十亿条推文。实时分析这些推文是一个巨大的挑战。为了保证每条推文处理的实时性和高效性,Twitter 设计和实现了一个新系统 Heron。 Heron 是为大规模环境量身打造的下一代开源流媒体引擎。在这次演讲中,我们将介绍 Heron 怎样实现 Exactly Once 这个重要特性和在大规模数据处理中的一些经验。
Twitter 全栈的技术架构都是围绕着大规模实时处理。在 Twitter 的数据中心持续地源源不断地生成大量的数据,为了实现实时性,Twitter 已经开发并部署了 Heron。Heron 现在已经是 apache 的孵化项目,它的 contributor 除了 Twitter 外还有来自微软,Google,斯坦福等多个组织机构。Heron 在大规模上提供无与伦比的性能,并已成功满足各种流处 application 的价格/性能目标。Heron 在数据处理中提供 at-least-once 和 at-most-once 的消息语义保证。
在这个演讲中,我们将介绍 Twitter 和 Streamlio 如何合作,在 Heron 中加入新的 exactly-once 的消息处理语义。我们将详细介绍在实现 exactly-once 中使用的算法和背后的相关技术,并结合我们的经验分享 exactly-once 所带来的优势、它的适用场景和使用中的利弊权衡。