培训课程

机器学习技术不仅包含高深的理论算法模型以及对数据的合理利用,同时也离不开全面的工程技术支持。因此,QCon 2017 上海站特设会前两天的深度培训——综合介绍业界先进的机器学习算法模型及应用实践,以及飞速发展的大数据实时计算技术。

机器学习实践

10月15日

大数据实时计算

10月16日

机器学习实践

课程简介

随着大数据技术的发展以及数据产品的应用和推广,尤其是在工业和互联网领域,企业使用机器学习来提升收入或是降低成本的方式愈加有效。这其中,预防欺诈、定位电子广告的目标客户、内容推荐、建造更好的汽车、瞄准更好的潜在市场、优化媒体、改善医疗保障服务等都证明大数据机器学习的多功能性和广泛的适用性。

目前大部分关于机器学习的课程是从科研算法的角度去阐述机器学习,本课程尝试从工程的角度阐述如何利用数据、收集数据、训练模型进而改善实际的业务问题。听众不仅能学习到如何使用机器学习的方法去构建预测模型,也能了解到对于不同的业务问题如何使用具体的算法和方法,以及学习如何从无到有构建产品环境的机器学习应用。

本课程的另一特色是通过一个信用卡申请的案例开始,配合丰富的实验且结合实际场景讲授数据收集、特征处理、模型构建以及模型部署的整个过程。通过具体案例和实验练习,围绕各个环节,让听众学习到如何构建机器学习系统、管道和整个机器学习的平台。

课程讲师

张彭善

PayPal 大数据研发架构师 / 资深数据科学家

张彭善,2008 年硕士毕业于上海交通大学,2012 年初加入 PayPal Risk Data Science 团队。2013 年初开始研发基于 Hadoop/YARN 的机器学习框架,以满足 PayPal 日益增长的风控大数据的需要。主要负责使用 Hadoop/YARN 实现分布式的神经网络、逻辑回归以及梯度提升树等算法。目前在 PayPal Risk 负责分布式机器学习的框架的研发以及机器学习工程化的端到端的系统平台建设。个人的兴趣主要集中在分布式的计算系统和大规模的机器学习/深度学习方向。

课程大纲

  1. 机器学习及应用案例介绍
  2. 特征工程和数据分析:构建机器学习模型的基础

      实验一:基本数据统计和处理

      实验二:特征归一化

  3. 基本算法介绍

      实验三:使用逻辑回归预测信用卡申请审批结果

  4. 如何评估模型的效果

      实验四:计算 Precision 和 Recall

  5. 非线性算法和模型组合算法

      实验五(1):使用神经网络预测信用卡申请审批结果

      实验五(2):使用随机森林和梯度提升树预测信用卡申请审批结果

  6. 基于大数据的机器学习系统

      实验六(1):使用MapReduce模型做基本特征统计

      实验六(2):思考如何应用分布式计算到其它机器学习步骤

  7. 模型部署: 如何应用机器学习模型到线上系统
  8. 总结和讨论

目标听众

数据产品经理、数据分析师、数据科学家、应用开发人员以及对在工程中如何使用机器学习的技术解决实际问题有兴趣的初学者

课程收益

  1. 了解机器学习和数据科学
  2. 如何对业务问题进行数学建模
  3. 如何收集数据、设计特征进行机器学习
  4. 学习各种机器学习的算法解决实际问题并了解其应用场景
  5. 如何部署模型上线,如何开发具备产品强度的数据模型服务
  6. 如何评估机器学习模型的作用以及如何补足机器学习模型的缺点

购买大会和培训套票,可享更多优惠

交通指南

© 2019 Baidu - GS(2018)5572号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方