刘勋,2001 年工作以来有着十七年的商业软件开发经验,其中四年互联网创业经历,五年大数据领域开发工作经验,Zeppelin Committer 和 Hadoop Contributor。
现任网易杭州研究院数据科学中心机器学习开发组负责人,主要从事网易猛犸大数据平台 Hadoop 和机器学习平台相关开发工作。
刘勋,2001 年工作以来有着十七年的商业软件开发经验,其中四年互联网创业经历,五年大数据领域开发工作经验,Zeppelin Committer 和 Hadoop Contributor。
现任网易杭州研究院数据科学中心机器学习开发组负责人,主要从事网易猛犸大数据平台 Hadoop 和机器学习平台相关开发工作。
Submarine 是 Hadoop 和 Zeppelin 社区联合开发的机器学习平台,支持 Tensorflow, Pytorch 等机器学习框架以单机或着分布式的方式运行在 Kubernetes 和 YARN 中。
在 Zeppelin 中进行可视化等交互式算法开发,模型训练作业提交,模型发布和工作流编排,通过 Zeppelin Spark Interpreter 进行数据加工处理,通过 Zeppelin Flink Interpreter 进行模型的在线推测和模型增量更新。
网易杭研大数据团队是 Hadoop Submarine 项目的主要贡献者之一,我们从零开始和社区一起构建 Submarine 的生态系统。现在你已经可以通过使用 Submarine-installer 你可以轻松的安装和部署 NVIDIA-Docker,ETCD,Calico 等这些机器学习运行环境,在 Zeppelin 中以可视化交互 Notebook 方式的进行 Spark 机器学习前的数据加工处理, 再进行 Tensorflow 的 Pythone 算法开发和验证,在 Zeppelin 中完成机器学习作业的数据处理和模型训练全链路的 Workflow 的编排,周期性的在 Kubernetes/Hadoop 中进行离线模型训练。 Submarine 的生态系统中所有代码和文档都已经开源,并合并进入 Hadoop 、Zeppelin 项目主干分支,让你可以零开发成本的搭建自己的机器学习开发平台。
1. 了解可以同时支持 Kubernetes 和 YARN 的机器学习平台项目 Submarine 的新进展;
2. 通过 Zeppelin 进行可视化交互式的机器学习算法开发的方法;
3. 如何零成本的使用 Submarine 项目和配套的生态系统搭建自己的机器学习开发平台。