QCon上海2017|全球软件开发大会

by 黄明

腾讯

数据平台部 T4 专家

方圆并济：基于 Spark on Angel 的高性能机器学习

在人工智能时代，高性能的机器学习有着非常重要的意义。而 Spark 的机器学习，受限于 Driver 的 BroadCast 性能和 RDD 的 Immutable 特性，在面对高维度和复杂的机器学习算法时，会受到诸多的束缚和约束，难以写出高性能而简洁的代码。为此，基于 Angel（腾讯开源的参数服务器框架）的 Spark on Angel，让 Spark 可以高效的基于 PS 模型，开发出高效而简洁的机器学习算法，加快业务发展。

听众收益

了解 ParameterServer 的特性；
Angel 的架构设计；
Spark on Angel 的设计原理；
如何基于 Spark on Angel 开发高性能机器学习算法；
未来展望。

by 伍翀

阿里巴巴

资深研发工程师

基于 Blink SQL 的阿里实时计算平台（Stream Compute）

随着近些年大数据技术的不断发展和成熟，无论是传统企业还是互联网公司都已经不再仅仅满足于批处理，对流处理的场景和需求也越来越强烈。于是业界也一直在探索统一流处理和批处理的引擎和 API，比如近几年火爆的 Spark，Beam，还有 Flink。阿里巴巴自 2015 年就开始改进 Flink，并创建了内部分支 Blink，目前服务了阿里集团内部搜索、推荐、广告和蚂蚁等大量核心实时业务。Blink SQL 和 Table API （java／scala 版的类 SQL API）是一套基于 Blink 引擎打造的可以同时支持流处理和批处理的统一的 API。在本次演讲中，我们会介绍当前 Blink SQL 丰富的功能，底层实现的原理，并且讲解流与表是如何相互转换的。另外我们一直在与 Flink 母公司 DataArtiscans 紧密合作，共同推进 Flink 社区的发展。我们已经将大部分 Blink 和 Blink SQL 的改进贡献回 Flink 社区。本次分享会主要介绍我们对 Flink SQL 的各项贡献和改进，并向大家分享 Blink SQL 在阿里内部的大规模应用场景。

by 李友林

Facebook

工程部高级技术经理

Facebook 实时数据连接及模型训练系统的演进

作为全球最大的社交网络，Facebook 每天有十几亿的用户会访问其信息流（Newsfeed），而它是根据用户的好友关系、个人兴趣、分享的内容及质量等方面排序的。我们在这个过程中使用了海量的用户及内容信息，并提取了数万个特征。我们发现实时的模型训练能显著提升排序的质量，而如何使用海量数据快速更新模型是我们必须应对的挑战。我们将会在这个演讲里面介绍这个系统的演进过程。

by 梁义（毅行）

阿里巴巴

高级搜索研发专家

举重若轻——阿里实时机器学习平台 Porsche 介绍

机器学习正在众多领域得到广泛的关注和应用。传统的机器学习一般基于离线批处理的方式进行，这种方式由于离线固有的特点而难以捕捉实时的数据变化，容易对最终的算法效果造成影响。为克服此类问题，事实上需要实现一个在线学习系统，能够以最小的端到端延迟，完成每条数据的预处理、特征工程、模型训练及导出等过程，并确保在持续不断的数据压力下保持实时。这样的一套系统其实现和运维难度明显增加，从而限制了在线学习算法的应用和推广。为解决这一问题，我们以高性能的流式计算引擎 Blink 和分布式存储系统 HBase 为核心，设计并实现了一个面向算法人员可视化自助开发运维的机器学习平台 Porsche，大幅降低了在线学习的使用门槛，并在阿里众多业务中得到广泛应用，支持了包括双 11 在内的日常和大促场景。

by 翟佳

Streamlio

核心创始成员

Heron 的 Exactly-Once 实现

Twitter 每天要接收和处理用户发送的数十亿条推文。实时分析这些推文是一个巨大的挑战。为了保证每条推文处理的实时性和高效性，Twitter 设计和实现了一个新系统 Heron。 Heron 是为大规模环境量身打造的下一代开源流媒体引擎。在这次演讲中，我们将介绍 Heron 怎样实现 Exactly Once 这个重要特性和在大规模数据处理中的一些经验。

Twitter 全栈的技术架构都是围绕着大规模实时处理。在 Twitter 的数据中心持续地源源不断地生成大量的数据，为了实现实时性，Twitter 已经开发并部署了 Heron。Heron 现在已经是 apache 的孵化项目，它的 contributor 除了 Twitter 外还有来自微软，Google，斯坦福等多个组织机构。Heron 在大规模上提供无与伦比的性能，并已成功满足各种流处 application 的价格/性能目标。Heron 在数据处理中提供 at-least-once 和 at-most-once 的消息语义保证。

在这个演讲中，我们将介绍 Twitter 和 Streamlio 如何合作，在 Heron 中加入新的 exactly-once 的消息处理语义。我们将详细介绍在实现 exactly-once 中使用的算法和背后的相关技术，并结合我们的经验分享 exactly-once 所带来的优势、它的适用场景和使用中的利弊权衡。

大数据实时流计算与人工智能

出品人：王绍翾（大沙）

黄明

伍翀

李友林

梁义（毅行）

翟佳

专题出品人：王绍翾（大沙）

阿里巴巴高级技术专家

专题出品人：王绍翾（大沙）

阿里巴巴高级技术专家

地点：宴会厅3

专题：大数据实时流计算与人工智能

by 黄明

腾讯

听众收益

by 伍翀

阿里巴巴

by 李友林

Facebook

by 梁义（毅行）

阿里巴巴

by 翟佳

Streamlio

关注主办方（InfoQ）

联系我们

交通指南

全球QCon大会

伦敦/2017年3月6-10日

北京/2017年4月16-18日

圣保罗/2017年4月24-26日

纽约/2017年6月26-30日

上海/2017年10月17-19日

旧金山/2017年11月13-17日

大数据实时流计算与人工智能

出品人：王绍翾（大沙）

黄明

伍翀

李友林

梁义（毅行）

翟佳

专题出品人：王绍翾（大沙）

阿里巴巴 高级技术专家

专题出品人：王绍翾（大沙）

阿里巴巴 高级技术专家

地点：宴会厅3

专题：大数据实时流计算与人工智能

by 黄明

腾讯

听众收益

by 伍翀

阿里巴巴

by 李友林

Facebook

by 梁义（毅行）

阿里巴巴

by 翟佳

Streamlio

关注主办方（InfoQ）

联系我们

交通指南

全球QCon大会

伦敦/2017年3月6-10日

北京/2017年4月16-18日

圣保罗/2017年4月24-26日

纽约/2017年6月26-30日

上海/2017年10月17-19日

旧金山/2017年11月13-17日

阿里巴巴高级技术专家

阿里巴巴高级技术专家