大数据分析的支撑技术

会议室:百宴厅4
出品人:余志东

大数据(Big Data)和分析(Analytics)是两个经常一起出现的词。尽... 展开 >

专题出品人:余志东

Intel 研发总监

余志东,Intel 大数据技术研发总监,负责 Intel 大数据分析平台软件的研发工作。他和他领导的跨国团队致力于优化软件的性能、开发能有效利用新兴硬件的关键技术,以及研发新的软件方案来推动大数据生态的完善和发展。作为领域专家,他的团队也会影响硬件的早期架构设计和路线。余志东于 2003 年加入 Intel,多年来一直从事系统软件在 Intel 平台上的性能分析和优化工作,历经数据库、Java 中间件、虚拟化、到云计算等不同领域。他是 2018 年 QCon 北京站之“大规模系统的性能优化”专题的出品人。

地点:百宴厅4

专题:大数据分析的支撑技术

大数据(Big Data)和分析(Analytics)是两个经常一起出现的词。尽管大数据技术已经出现十余年、PB 级别的数据量也不再罕见,但是分析技术却从未停止过演化。从最初原始的 Map-Reduce 到后来的诸多 Libraries,从批处理(Batch)到流处理(Streaming),从传统的机器学习(ML)到近年来兴起的深度学习(DL),从面向数据工程师的 Java/Scala/SQL 编程接口到面向数据科学家的 Python/DataFrame 接口,大数据平台已经逐渐变成了一个真正的端到端的分析平台:支持海量数据管理、全面的分析功能、拥抱数据科学和机器(深度)学习。

另一方面,云计算模式的普及和云原生应用的发展也给大数据分析平台技术带来了巨大影响。计算和存储的分离,跨云的计算/存储资源池,对 Kubernetes 等技术的拥抱,都使的如今的大数据分析平台和过去看起来很不一样。

再者,硬件技术的发展也是日新月异。万兆网络在数据中心里已经开始普及,SSD 的容量-价格比不断提高,革命性的持久化内存技术已经上市,CPU 之外的各类硬件加速器也是百花齐放。相应地大数据分析平台也在不断演化,具有颠覆性的软件技术也在不断出现。

本专题聚焦于大数据分析(Big Data Analytics)这一经久不衰的热门领域,探讨基础架构层面的支撑技术。我们希望给听众带来新鲜的技术动向,有料的实践分享,以及热门的互动社区。欢迎投稿,欢迎现场关注。

by 李潇

Databricks
Engineering Manager

Delta Lake(Delta.io)是一个给数据湖提供可靠性的开源存储层软件。Delta Lake 提供了 ACID 事务性,可扩展的元数据处理,以及统一了流处理和批处理。它可以运行在现有的数据湖,并且完全兼容 Apache Spark APIs [Spark 2.4.3+]。

听众受益

1. 了解 Delta Lake 可以帮助解决哪些数据质量的问题;
2. 如何将你现有的应用转移到 Delta Lake;
3. Delta Lake 的事务协议是如何实现的;
4. Delta Lake 的未来项目规划;
5. Delta Lake 在 Spark 3.0 的使用。

by 郭俊

字节跳动
数据仓库架构负责人

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域,Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎,另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据,单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署,因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果,介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。

听众受益

1. 了解超大规模 Spark 集群在海量数据场景下的挑战和痛点;

2. 了解字节跳动如何提升 Spark 作业的稳定性;

3. 了解字节跳动如何将离线任务从 MapReduce 平滑迁移至 Spark;

4. 了解字节跳动如何从逻辑计划优化,物理计划优化,以及运行时优化等不同维度优化 Spark SQL 的整体性能。

by 虞沐

趣头条
大数据部技术总监

趣头条在 2018-2019 年经历了业务的高速发展,主 App 和其他创新 App 的日活增加了 10 倍以上。相应的,大数据系统和平台也从最初的 100 台机器,增加到2000 台以上,技术栈从单一的离线数据报表,发展到离线 + 实时 + 机器学习的完整系统。这个分享将从 3 个主要方面,阐述大数据系统的演进路线,和经验分享。

Kafka 读写分离背景:各业务部门数据消费方式的差异,经常导致 Kafka 集群节点的不稳定。 解决方案:读写分离,第一层集群只负责接收数据,第二层集群按部门隔离,用 Flink 把数据从第一层集群同步到第二层。第一层集群前面还有个 Proxy 负责统一接收数据。这个方案参考了 Netflix 的设计。

Hadoop 治理背景:集群从 100 台增加到 1500 台,很多历史遗留问题,例如用户和权限管理的缺失,缺少 Federation 对于各部门的隔离,小文件,低价值数据的归档和删除,计算队列的利用率,阿里云 EMR 无法完全满足定制化的需求,客户机的管理混乱,等等。 解决方案:自研 Hadoop 集群管理平台,基于 CDH 的源码二次开发,多 Federation + HA,按部门的存储和小文件上限管理,数据生命周期管理,元数据与数据全链路监控,用户权限管理。

机器学习平台背景:公司算法部门有多套训练平台,缺乏统一的资源管理,调度平台,特征仓库,等等。 解决方案:所有训练集群统一到 K8S 管理(包括 CPU 和 GPU 资源),用 KubeFlow 管理任务调度,自研 K8S 任务调度模块提高集群资源利用率,开发特征管理仓库,开发模型管理仓库,用 K8S 管理线上预测服务,等等。 

听众受益

1. 熟悉阿里云大数据平台,和其他公有云方案的差异,和应用场景; 

2. 大数据系统快速增长过程中,如何保障稳定性,如何做技术选型; 

3. 如何从 0 到 1,构建大规模数据系统平台; 

4. 机器学习平台的构建,发挥 K8S 的作用,如何跟数据系统集成。 

by 周家英

蚂蚁金服
资深技术专家

伴随着大数据时代的来临,越来越多的业务场景开始依赖机器学习进行商业上的升级。同时随着计算及 AI 体系的逐步成熟,以及业务对于机器学习的越发依赖,分布式机器学习从传统的离线学习逐渐开始向在线学习演进。相比于传统的离线机器学习,在线学习可以带来更快的模型迭代速度,让模型预测效果更贴真实情况,对于线上的波动更加敏感,因此,一套好的在线学习架构就格外重要。在最近两年,国内的各个一线互联网厂商分别推出自己的在线学习技术体系及相关架构,蚂蚁金服从 2018 年 7 月开始,在基于新的 Ray 分布式引擎之上,自研了金融级的在线学习系统,与传统在线学习框架相比,在端到端延迟,稳定性,研发效率等方面都有不同程度的提高。希望可以通过本次介绍,让大家对于蚂蚁金服的在线计算体系有所了解。

by 李玥

MemVerge
联合创始人、首席技术官

by 邵赛赛

腾讯
数据平台部数据湖内核技术负责人

实现 Spark 的弹性化对其在云上实现灵活部署有着重要的意义:易失性的云主机部署,节点失效成为常态;存储计算分离,有限的本地存储加上大量的远端存储(块存储、对象存储)。所有的这些变化促使传统的大数据框架需要更适应云原生的部署方式。

为实现这一目的,分离 Spark 的计算和存储则变得尤为重要。如果计算的临时结果,输入和输出数据都被转移存储在计算集群之外的存储集群,计算任务即可转化为无状态的弹性任务。对于 Spark,重要的计算的状态数据包括 Shuffle 过程中产生的临时数据以及 RDD 等缓存数据,这些数据必须存储在外接存储集群以实现弹性部署。然而,由于外界存储集群的 I/O 性能以及计算节点和存储节点之间的网络传输性能瓶颈对实现高性能的计算存储分离方案提出了巨大的挑战。

本次分享中,我们基于之前合作的结果,讨论一种高性能实现 Spark 存储计算分离的创新架构。该架构基于一套全新开发并基于持久化内存的高性能分布式数据基础架构,以及高性能低延迟网络传输协议。我们以腾讯云数仓产品 Sparkling 为例,讨论使用该创新架构在优化 TPC-DS benchmark 性能上的实践。

by 斯文骏

阿里巴巴
技术专家

随着数据规模的不断扩大和应用领域的不断拓展,当下的数据科学家和工程师不再满足于传统的分析方法和工具。Python 生态在数据领域的不断拓展也使得数据分析中对兼容 Python 生态工具的需求变得愈发强烈。Mars 正是为这一需求而开发的,试图兼容 Numpy 和 Pandas 的大规模张量计算系统,并已在若干个场景中落地。在本次分享中,我们将基于 Mars 以往的实践介绍系统架构和提升执行效率方面的实践。 

听众受益

  1. 了解 Mars 如何建模大规模张量计算问题并拆解为分布式执行;

  2. 了解 Mars 如何使用 Python 构建分布式调度系统;

  3. 了解细粒度张量计算图调度中可能遇到的问题及其对策;

  4. 了解 Mars 的应用范围和未来的发展方向。

by 史栋杰

英特尔
资深软件架构师

在大数据中使用深度学习算法挖掘数据的内在价值一直都是业界关注的热点,为大数据工程师提供开箱即用的深度学习应用流水线构建工具箱就显得尤为重要。Analytics-Zoo 是由 Intel 开源,基于 Apache Spark、Tensorflow、Keras 和 BigDL 的大数据分析 + AI 平台。Analytics Zoo 是一个高阶大数据分析和 AI 平台,它能够帮助用户利用 Spark 的各种流水线、内置模型和特征操作等,构建基于大数据的深度学习端到端应用。Analytics-Zoo 同时内置了许多开箱即用的深度学习模型和用例。其优势在于基于现有 Spark 或 YARN 等大数据平台,无需额外的深度学习硬件加速器,无缝运行各类主流的深度学习框架和模型,方便企业在已有的大型 Apache Hadoop/Spark 集群上进行分布式训练及推理。

听众受益

  1. 了解大数据分析到深度学习的技术债务及开发 Analytics Zoo 的初衷;
  2. 在 Spark 上构建端到端的数据分析及 AI 流水线应用,在 Spark 上运行分布式 Tensorflow 及 Keras;
  3. 将大数据上的深度学习应用部署到生产环境,使用 OpenVINO 加速,Web Services、Flink 流处理等场景的支持,基于 pub-sub 的 Cluster Serving 架构;
  4. 了解 Analytics Zoo 内置的特征工程、深度学习模型和应用场景实例。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86 17310043226