随着互联网软硬件的飞速发展,传统行业开始向各种新经济类型转型。这些新经济往往依托... 展开 >
王绍翾,淘宝花名"大沙",加州大学圣迭戈分校计算机工程的博士,2015 年加入阿里巴巴集团,目前就职于阿里巴巴计算平台事业部。加入阿里之前,曾在 Facebook 开发分布式图关系数据库 TAO。
加入阿里之后,王绍翾一直从事阿里新一代实时计算平台 blink 的研发工作。早期负责搜索事业部的离线大数据处理,利用半年的时间带领团队将阿里淘宝天猫的搜索离线数据处理的计算全部迁移到了 blink 计算平台之上。之后负责 blink 计算平台的查询和优化。用了半年多的时间,打造了一套功能完备高性能的实时计算 blink SQL & Table API,并成功的将阿里的实时计算机器学习平台整体的迁移到这套 API 之上。王绍翾是 Apache flink 的 committer,除了自己,他在团队内部还培养出另外 2 位 apache flink committer。
随着互联网软硬件的飞速发展,传统行业开始向各种新经济类型转型。这些新经济往往依托于两个核心技术:大数据计算和人工智能。
如何能够获取数据,处理数据,并从数据中挖掘有价值的信息,是各个新经济体都在努力解决的问题。早期的数据处理大多都是离线批计算,实时处理只是对离线批计算的一个补充,但是现在越来越多的应用场景对数据处理有了高时效性的要求。如何能够更快的采集数据,实时的处理数据是当前各个新经济所面临的一个挑战。越来越多的公司对实时流计算的需求已经从 nice to have 到了 must to have。这些公司在有了一套能够支撑大规模,低延迟,高一致性保障的实时计算处理架构之后,就会利用机器学习,深度学习等人工智能技术从实时数据中高效的挖掘出有价值的信息。本专题将邀请多位国内外一线的专家分析实时流计算和人工智能领域的最新的技术成果,应用和趋势。
在人工智能时代,高性能的机器学习有着非常重要的意义。而 Spark 的机器学习,受限于 Driver 的 BroadCast 性能和 RDD 的 Immutable 特性,在面对高维度和复杂的机器学习算法时,会受到诸多的束缚和约束,难以写出高性能而简洁的代码。为此,基于 Angel(腾讯开源的参数服务器框架)的 Spark on Angel,让 Spark 可以高效的基于 PS 模型,开发出高效而简洁的机器学习算法,加快业务发展。
随着近些年大数据技术的不断发展和成熟,无论是传统企业还是互联网公司都已经不再仅仅满足于批处理,对流处理的场景和需求也越来越强烈。于是业界也一直在探索统一流处理和批处理的引擎和 API,比如近几年火爆的 Spark,Beam,还有 Flink。阿里巴巴自 2015 年就开始改进 Flink,并创建了内部分支 Blink,目前服务了阿里集团内部搜索、推荐、广告和蚂蚁等大量核心实时业务。Blink SQL 和 Table API (java/scala 版的类 SQL API)是一套基于 Blink 引擎打造的可以同时支持流处理和批处理的统一的 API。在本次演讲中,我们会介绍当前 Blink SQL 丰富的功能,底层实现的原理,并且讲解流与表是如何相互转换的。另外我们一直在与 Flink 母公司 DataArtiscans 紧密合作,共同推进 Flink 社区的发展。我们已经将大部分 Blink 和 Blink SQL 的改进贡献回 Flink 社区。本次分享会主要介绍我们对 Flink SQL 的各项贡献和改进,并向大家分享 Blink SQL 在阿里内部的大规模应用场景。
作为全球最大的社交网络,Facebook 每天有十几亿的用户会访问其信息流(Newsfeed),而它是根据用户的好友关系、个人兴趣、分享的内容及质量等方面排序的。我们在这个过程中使用了海量的用户及内容信息,并提取了数万个特征。我们发现实时的模型训练能显著提升排序的质量,而如何使用海量数据快速更新模型是我们必须应对的挑战。我们将会在这个演讲里面介绍这个系统的演进过程。
机器学习正在众多领域得到广泛的关注和应用。传统的机器学习一般基于离线批处理的方式进行,这种方式由于离线固有的特点而难以捕捉实时的数据变化,容易对最终的算法效果造成影响。为克服此类问题,事实上需要实现一个在线学习系统,能够以最小的端到端延迟,完成每条数据的预处理、特征工程、模型训练及导出等过程,并确保在持续不断的数据压力下保持实时。这样的一套系统其实现和运维难度明显增加,从而限制了在线学习算法的应用和推广。为解决这一问题,我们以高性能的流式计算引擎 Blink 和分布式存储系统 HBase 为核心,设计并实现了一个面向算法人员可视化自助开发运维的机器学习平台 Porsche,大幅降低了在线学习的使用门槛,并在阿里众多业务中得到广泛应用,支持了包括双 11 在内的日常和大促场景。
Twitter 每天要接收和处理用户发送的数十亿条推文。实时分析这些推文是一个巨大的挑战。为了保证每条推文处理的实时性和高效性,Twitter 设计和实现了一个新系统 Heron。 Heron 是为大规模环境量身打造的下一代开源流媒体引擎。在这次演讲中,我们将介绍 Heron 怎样实现 Exactly Once 这个重要特性和在大规模数据处理中的一些经验。
Twitter 全栈的技术架构都是围绕着大规模实时处理。在 Twitter 的数据中心持续地源源不断地生成大量的数据,为了实现实时性,Twitter 已经开发并部署了 Heron。Heron 现在已经是 apache 的孵化项目,它的 contributor 除了 Twitter 外还有来自微软,Google,斯坦福等多个组织机构。Heron 在大规模上提供无与伦比的性能,并已成功满足各种流处 application 的价格/性能目标。Heron 在数据处理中提供 at-least-once 和 at-most-once 的消息语义保证。
在这个演讲中,我们将介绍 Twitter 和 Streamlio 如何合作,在 Heron 中加入新的 exactly-once 的消息处理语义。我们将详细介绍在实现 exactly-once 中使用的算法和背后的相关技术,并结合我们的经验分享 exactly-once 所带来的优势、它的适用场景和使用中的利弊权衡。