8 年大数据平台产品研发经验,入职滴滴前曾负责阿里的大数据开发套件(包括一站式的大数据开发平台、工作流任务调度、任务智能监控、数据质量、数据管理等),目前在滴滴在负责构建基于开源大数据(Hadoop、Hive、Spark、Presto、Flink)的一站式智能数据开发、生产平台(包括离线、实时、机器学习)。
8 年大数据平台产品研发经验,入职滴滴前曾负责阿里的大数据开发套件(包括一站式的大数据开发平台、工作流任务调度、任务智能监控、数据质量、数据管理等),目前在滴滴在负责构建基于开源大数据(Hadoop、Hive、Spark、Presto、Flink)的一站式智能数据开发、生产平台(包括离线、实时、机器学习)。
滴滴大数据研发平台致力于数据赋能业务,一站式完成数据的同步、开发、调度、数据质量、监控运维等操作,让数据开发过程顺畅高效,让数据运维省心省力。
1、介绍下滴滴的大数据发展史,滴滴大数据经历了裸奔状态(引擎初建,通过 Sqoop 从 Mysql 导入 Hadoop,用户通过命令行访问大数据)、割裂的工具化建设(租户管理、权限管理、任务调度等等)、一站式的智能开发 & 生产平台(覆盖离线场景;内置开发和生产两套逻辑环境,规范数据开发、生产和发布流程;)、集离线开发、实时开发、机器学习于一体的一站式的智能开发 & 生产平台;
2、集离线开发 & 实时开发 & 机器学习于一体的一站式的智能开发 & 生产平台是什么?平台包括哪些组件,每个组件的核心功能是啥?建设这个平台遇到哪些困难,是如何克服的?
3、核心组件设计剖析:离线实时元数据统一、统一任务提交网关机、列权限、数据血缘;
4、举例说明如何利用一站式的智能开发 & 生产平台进行数据治理,包括存储和计算:废弃表、同源导入、生命周期过长、暴利扫描、数据倾斜、参数不合理等等。
1、用户可以了解大数据平台研发工具的建设思路;
2、离线和流式元数据统一体系(业界独一份);
3、如果基于开源组件来构建大数据工具体系。