下一代实时处理初创公司 Streamlio 的联合创始人。之前就职于 Twitter,任职 Staff Software Engineer,是 Twitter message group 的技术负责人。同时也是 Apache BookKeeper 的 PMC Chair, Apache DistributedLog 的 Co-Creator。加入 Twitter 之前,就职于Yahoo。
培训课程
机器学习技术不仅包含高深的理论算法模型以及对数据的合理利用,同时也离不开全面的工程技术支持。因此,QCon 2017 上海站特设会前两天的深度培训——综合介绍业界先进的机器学习算法模型及应用实践,以及飞速发展的大数据实时计算技术。
随着大数据技术的发展以及数据产品的应用和推广,尤其是在工业和互联网领域,企业使用机器学习来提升收入或是降低成本的方式愈加有效。这其中,预防欺诈、定位电子广告的目标客户、内容推荐、建造更好的汽车、瞄准更好的潜在市场、优化媒体、改善医疗保障服务等都证明大数据机器学习的多功能性和广泛的适用性。
目前大部分关于机器学习的课程是从科研算法的角度去阐述机器学习,本课程尝试从工程的角度阐述如何利用数据、收集数据、训练模型进而改善实际的业务问题。听众不仅能学习到如何使用机器学习的方法去构建预测模型,也能了解到对于不同的业务问题如何使用具体的算法和方法,以及学习如何从无到有构建产品环境的机器学习应用。
本课程的另一特色是通过一个信用卡申请的案例开始,配合丰富的实验且结合实际场景讲授数据收集、特征处理、模型构建以及模型部署的整个过程。通过具体案例和实验练习,围绕各个环节,让听众学习到如何构建机器学习系统、管道和整个机器学习的平台。
张彭善,2008 年硕士毕业于上海交通大学,2012 年初加入 PayPal Risk Data Science 团队。2013 年初开始研发基于 Hadoop/YARN 的机器学习框架,以满足 PayPal 日益增长的风控大数据的需要。主要负责使用 Hadoop/YARN 实现分布式的神经网络、逻辑回归以及梯度提升树等算法。目前在 PayPal Risk 负责分布式机器学习的框架的研发以及机器学习工程化的端到端的系统平台建设。个人的兴趣主要集中在分布式的计算系统和大规模的机器学习/深度学习方向。
实验一:基本数据统计和处理
实验二:特征归一化
实验三:使用逻辑回归预测信用卡申请审批结果
实验四:计算 Precision 和 Recall
实验五(1):使用神经网络预测信用卡申请审批结果
实验五(2):使用随机森林和梯度提升树预测信用卡申请审批结果
实验六(1):使用MapReduce模型做基本特征统计
实验六(2):思考如何应用分布式计算到其它机器学习步骤
数据产品经理、数据分析师、数据科学家、应用开发人员以及对在工程中如何使用机器学习的技术解决实际问题有兴趣的初学者
购买大会和培训套票,可享更多优惠