通过计算存储分离实现高性能弹性化的 Spark 部署

所属专题:大数据分析的支撑技术

所属领域: 大数据

嘉宾 : (1) 李玥 | MemVerge联合创始人、首席技术官 (2) 邵赛赛 | 腾讯数据平台部数据湖内核技术负责人

会议室 : 百宴厅4

讲师介绍

专题演讲嘉宾:李玥

MemVerge 联合创始人、首席技术官

Yue is a co-founder and the Chief Technology Officer of MemVerge. Previously, he worked as a senior post-doctoral scholar in memory systems at the California Institute of Technology. Yue has extensive research experience on both theoretical and experimental aspects of algorithms for non-volatile memories. His research has been published in top journals and conferences on data storage. Yue received his PhD in computer science from Texas A&M University, and his B.Sc. in Information Security from Huazhong University of Science and Technology.

 

专题演讲嘉宾:邵赛赛

腾讯 数据平台部数据湖内核技术负责人

邵赛赛,腾讯数据平台部数据湖内核技术负责人,资深大数据工程师,Apache Spark PMC Member & Committer、Apache Livy PMC Member。

议题介绍

地点:百宴厅4
所属专题:大数据分析的支撑技术
所属领域:
大数据

演讲:通过计算存储分离实现高性能弹性化的 Spark 部署

实现 Spark 的弹性化对其在云上实现灵活部署有着重要的意义:易失性的云主机部署,节点失效成为常态;存储计算分离,有限的本地存储加上大量的远端存储(块存储、对象存储)。所有的这些变化促使传统的大数据框架需要更适应云原生的部署方式。

为实现这一目的,分离 Spark 的计算和存储则变得尤为重要。如果计算的临时结果,输入和输出数据都被转移存储在计算集群之外的存储集群,计算任务即可转化为无状态的弹性任务。对于 Spark,重要的计算的状态数据包括 Shuffle 过程中产生的临时数据以及 RDD 等缓存数据,这些数据必须存储在外接存储集群以实现弹性部署。然而,由于外界存储集群的 I/O 性能以及计算节点和存储节点之间的网络传输性能瓶颈对实现高性能的计算存储分离方案提出了巨大的挑战。

本次分享中,我们基于之前合作的结果,讨论一种高性能实现 Spark 存储计算分离的创新架构。该架构基于一套全新开发并基于持久化内存的高性能分布式数据基础架构,以及高性能低延迟网络传输协议。我们以腾讯云数仓产品 Sparkling 为例,讨论使用该创新架构在优化 TPC-DS benchmark 性能上的实践。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86 17310043226