整个 Hadoop 生态从诞生到蓬勃发展,目前已经经过了 10 个年头,在这个过... 展开 >
赵健博,大数据领域专家,快手大数据架构团队的负责人,目前负责快手公司 Hadoop 生态中存储、调度、计算、AI 架构等子系统内核与周边子系统的研发,与在公司内的应用。2009 年毕业于中国科学院计算所,曾就职于百度、奇虎360、58集团。主要研究领域包括分布式计算、调度与存储系统等。
整个 Hadoop 生态从诞生到蓬勃发展,目前已经经过了 10 个年头,在这个过程中,生态中各个存储、调度与计算子系统也都有了长足的发展,正在朝向高性能、易扩展、高可用、支持更大业务规模、更多场景等几个方面进行。与此同时,各大互联网公司也都借助开源的 Hadoop 生态系统构建各自大数据架构系统,并进行了很好的应用、落地与改进,在成本优化、平滑扩容、性能改进等方面都积累了很多成熟的实践经验。从而很好支撑了数据相关业务的价值挖掘与快速发展,为公司的战略发展、产品改进、用户增长带来的巨大的收益。
本专题将聚焦一线互联网公司在大数据平台架构系统相关的实践案例,内容涵盖 Hadoop 生态中存储、调度、计算等系统的技术应用与演进。听众通过本专题的分享,可以了解到一线大型互联网公司所面临的实际业务场景,问题与挑战,以及他们的技术解决方案与技术演进过程。相信会对听众有很大的借鉴意义。
Submarine 是 Hadoop 和 Zeppelin 社区联合开发的机器学习平台,支持 Tensorflow, Pytorch 等机器学习框架以单机或着分布式的方式运行在 Kubernetes 和 YARN 中。
在 Zeppelin 中进行可视化等交互式算法开发,模型训练作业提交,模型发布和工作流编排,通过 Zeppelin Spark Interpreter 进行数据加工处理,通过 Zeppelin Flink Interpreter 进行模型的在线推测和模型增量更新。
网易杭研大数据团队是 Hadoop Submarine 项目的主要贡献者之一,我们从零开始和社区一起构建 Submarine 的生态系统。现在你已经可以通过使用 Submarine-installer 你可以轻松的安装和部署 NVIDIA-Docker,ETCD,Calico 等这些机器学习运行环境,在 Zeppelin 中以可视化交互 Notebook 方式的进行 Spark 机器学习前的数据加工处理, 再进行 Tensorflow 的 Pythone 算法开发和验证,在 Zeppelin 中完成机器学习作业的数据处理和模型训练全链路的 Workflow 的编排,周期性的在 Kubernetes/Hadoop 中进行离线模型训练。 Submarine 的生态系统中所有代码和文档都已经开源,并合并进入 Hadoop 、Zeppelin 项目主干分支,让你可以零开发成本的搭建自己的机器学习开发平台。
1. 了解可以同时支持 Kubernetes 和 YARN 的机器学习平台项目 Submarine 的新进展;
2. 通过 Zeppelin 进行可视化交互式的机器学习算法开发的方法;
3. 如何零成本的使用 Submarine 项目和配套的生态系统搭建自己的机器学习开发平台。
对于海量大数据进行即时的多维分析,没有任何银弹。为解决苏宁复杂业务场景下的通用指标分析查询场景,我们结合各项大数据技术建立苏宁 OLAP 引擎。支持单模型百亿条 TB 级别数据的实时汇总分析和明细查询,在建设过程中,也遇到了各种各样的挑战。
如何将复杂业务场景抽象化,提供平台级能力支持,如何通过统一的 SQL 引擎来实现各种类型数据的统一查询;对于通用服务计算框架无法解决的问题,如何通过定制化实现来解决;对于通用查询引擎无法满足响应时间的场景,如何通过预计算方式来实现;如何通过 Cost 模型来对服务进行分级和隔离等等。本次深度揭秘苏宁建设 OLAP 引擎过程中如何运用各项技术解决问题的方案,以及过程中遇到的坑和优化方法。
1、苏宁 OLAP 引擎概况;
2、OLAP 引擎架构;
3、特定业务解决方案;
4、技术挑战;
5、未来规划。
阿里巴巴搜索广告数据业务非常复杂,有各类 Point Query,Ad-hoc 及实时 OLAP 需求,传统架构中使用多套系统(如HBase, Druid, ClickHouse等)分别来解决不同场景的需求,这样的系统架构带来了很多问题,如多个系统入口,数据存储多份,采购和运维成本高,数据一致性等。我们需要一套系统,一个入口,一份数据来解决以上问题,最终在成本和性能之间做一个很好的权衡。此次是 Hologres 首次对外分开分享,希望能够给听众带来一些新的技术思路。
1. 基础架构;
2. 技术创新与亮点;
3. 典型场景介绍;
4. Demo & 优秀实践;
5. 未来规划。
1. 对现有大数据分析技术进行了总结,结合新硬件的应用,对新技术进行介绍;
2. 阿里交互式分析技术演进总结,并结合实际业务场景,分享 Hologres 如何在内部和云上落地。
Kafka 系统在快手有着很广泛的应用,除作为消息队列服务于快手三大 Tab 页、上传、支付等在线核心服务之外,还作为数据交换中心支撑数据分析,模型训练等离线业务场景。随着快手业务的高速发展, Kafka 集群的规模也成指数增长,目前 Kafka 集群日消息处理总量达数万亿级别,峰值超过 1 亿/s。与此同时我们也面临了很多新问题与技术挑战。本次分享将会介绍 Kafka 系统在快手的应用实践、我们遇到的问题以及相应的技术的演进过程。例如,我们如何解决 Kafka 扩展性、性能,如何做数据 Mirror 集群管理等等。具体提纲如下:
随着美团点评以吃为核心的多场景业务的飞速发展, 美团点评的 Hadoop 集群规模持续每年翻番, 2017 年 Hadoop 集群规模突破万台,超出单机房容量上限, 势必要提供多机房的 Hadoop 服务。
现有 Hadoop 架构没有机房概念,在多机房部署 Hadoop 服务时,会导致大量的跨机房流量和请求严重降低集群吞吐。业内在解决 Hadoop 多机房部署问题时,往往采用一个机房一套集群的运维方式,但这会使机房概念更大程度的暴露到数据生产层面,提高了数据开发成本。
在此背景下, 美团点评离线团队秉持以业务为中心的价值导向, 通过技术换运营,自主研发了对业务提供透明的、数据强一致性保障的、常态、异地域、多机房、单集群 Hadoop 服务。
目前, 美团点评 Hadoop 集群规模数万台,是业界唯一一家提供常态、异地域、多机房、单集群 Hadoop 服务的科技企业。此次分享整个方案设计和落地,给业界同行在面临同样场景时以参考。
滴滴大数据研发平台致力于数据赋能业务,一站式完成数据的同步、开发、调度、数据质量、监控运维等操作,让数据开发过程顺畅高效,让数据运维省心省力。
1、介绍下滴滴的大数据发展史,滴滴大数据经历了裸奔状态(引擎初建,通过 Sqoop 从 Mysql 导入 Hadoop,用户通过命令行访问大数据)、割裂的工具化建设(租户管理、权限管理、任务调度等等)、一站式的智能开发 & 生产平台(覆盖离线场景;内置开发和生产两套逻辑环境,规范数据开发、生产和发布流程;)、集离线开发、实时开发、机器学习于一体的一站式的智能开发 & 生产平台;
2、集离线开发 & 实时开发 & 机器学习于一体的一站式的智能开发 & 生产平台是什么?平台包括哪些组件,每个组件的核心功能是啥?建设这个平台遇到哪些困难,是如何克服的?
3、核心组件设计剖析:离线实时元数据统一、统一任务提交网关机、列权限、数据血缘;
4、举例说明如何利用一站式的智能开发 & 生产平台进行数据治理,包括存储和计算:废弃表、同源导入、生命周期过长、暴利扫描、数据倾斜、参数不合理等等。
1、用户可以了解大数据平台研发工具的建设思路;
2、离线和流式元数据统一体系(业界独一份);
3、如果基于开源组件来构建大数据工具体系。