培训:10月15-16，大会:10月17-19

上海·宝华万豪酒店

购票热线：010-84782011

培训课程

机器学习技术不仅包含高深的理论算法模型以及对数据的合理利用，同时也离不开全面的工程技术支持。因此，QCon 2017 上海站特设会前两天的深度培训——综合介绍业界先进的机器学习算法模型及应用实践，以及飞速发展的大数据实时计算技术。

机器学习实践

10月15日

大数据实时计算

10月16日

大数据实时计算

课程简介

提高计算的时效性，更快的从数据中挖掘出信息和知识就意味着能够获取更大的价值。由于对于实时性的高要求，Twitter在过去几年的时间内投入人力和研发了一整套实时数据技术栈。最近，越来越多的企业对于实时数据技术架构感兴趣。从批处理向流计算机构的转型，是企业关于如何使用数据的一次技术革命。但是，实时数据技术栈（包括流计算引擎、数据存储引擎、编程语言和工具）的最前沿现状又是什么呢？在这其中，又有哪些技术挑战？以及这些前沿技术怎么影响流计算的架构和应用呢？

课程讲师

郭斯杰

Streamlio 联合创始人

下一代实时处理初创公司 Streamlio 的联合创始人。之前就职于 Twitter，任职 Staff Software Engineer，是 Twitter message group 的技术负责人。同时也是 Apache BookKeeper 的 PMC Chair， Apache DistributedLog 的 Co-Creator。加入 Twitter 之前，就职于Yahoo。

翟佳

Streamlio 核心创始成员

翟佳毕业于中科院计算所，目前就职于一家下一代实时处理初创公司 Streamlio，是 streamlio 的核心创始成员之一。在此之前任职于 EMC，是北京 EMC 实时处理平台的技术负责人。主要从事实时计算和分布式存储系统的相关开发，此外也在开源项目 Apache BookKeeper, Distributedlog，DC/OS 等项目中持续贡献代码。

课程大纲

流计算的简介以及一些典型应用
流计算架构是什么
不同类型的流计算架构及其优缺点
流计算技术栈中的messaging，compute 和storage三个层面
Messaging： Apache Pulsar的特性和使用场景
Computing：Heron。详细讨论流计算引擎Heron，以及它在现代实时数据技术栈里的使用场景
Storage：详细讨论为实时数据存储设计的Apache BookKeeper/DistributedLog
我们使用Apache Pulsar, BookKeeper/DistributedLog和Heron来搭建实时数据技术栈时获得的经验教训

目标人群

Software Engineers, Engineering Management, CIOs, Technology leaders

课程收益

了解流计算及其架构的历史，发展和典型应用，理解不同流计算平台的特性和优缺点
理解Messaging处理机制并能使用Pulsar进行messaging处理
理解Heron的基本架构并能使用Heron进行实时处理
理解Apache BookKeeper/DistributedLog特性并能使用它们进行实时数据的存取
能够便捷地搭建一套高性能切实可用的实时处理系统
了解分布式系统和实时处理系统设计中常见问题、难点和处理策略

购买大会和培训套票，可享更多优惠

机器学习实践

课程简介

随着大数据技术的发展以及数据产品的应用和推广，尤其是在工业和互联网领域，企业使用机器学习来提升收入或是降低成本的方式愈加有效。这其中，预防欺诈、定位电子广告的目标客户、内容推荐、建造更好的汽车、瞄准更好的潜在市场、优化媒体、改善医疗保障服务等都证明大数据机器学习的多功能性和广泛的适用性。

目前大部分关于机器学习的课程是从科研算法的角度去阐述机器学习，本课程尝试从工程的角度阐述如何利用数据、收集数据、训练模型进而改善实际的业务问题。听众不仅能学习到如何使用机器学习的方法去构建预测模型，也能了解到对于不同的业务问题如何使用具体的算法和方法，以及学习如何从无到有构建产品环境的机器学习应用。

本课程的另一特色是通过一个信用卡申请的案例开始，配合丰富的实验且结合实际场景讲授数据收集、特征处理、模型构建以及模型部署的整个过程。通过具体案例和实验练习，围绕各个环节，让听众学习到如何构建机器学习系统、管道和整个机器学习的平台。

课程讲师

张彭善

PayPal 大数据研发架构师 / 资深数据科学家

张彭善，2008 年硕士毕业于上海交通大学，2012 年初加入 PayPal Risk Data Science 团队。2013 年初开始研发基于 Hadoop/YARN 的机器学习框架，以满足 PayPal 日益增长的风控大数据的需要。主要负责使用 Hadoop/YARN 实现分布式的神经网络、逻辑回归以及梯度提升树等算法。目前在 PayPal Risk 负责分布式机器学习的框架的研发以及机器学习工程化的端到端的系统平台建设。个人的兴趣主要集中在分布式的计算系统和大规模的机器学习/深度学习方向。