Spark SQL 在字节跳动数据仓库领域的优化实践

所属专题:大数据分析的支撑技术

所属领域: 大数据

嘉宾 : 郭俊 | 字节跳动数据仓库架构负责人

会议室 : 百宴厅4

讲师介绍

专题演讲嘉宾:郭俊

字节跳动 数据仓库架构负责人

郭俊,就职于字节跳动(上海)基础架构部,现负责数据仓库架构,包含以 Spark SQL 为代表的 OLAP 引擎优化,实时 ETL 系统优化,图计算技术探索与应用。曾就职于 Cisco 负责 Streaming MPP 系统研发,数据仓库架构设计与性能调优;曾在 eBay 负责大数据基础架构的优化工作 。

议题介绍

地点:百宴厅4
所属专题:大数据分析的支撑技术
所属领域:
大数据

演讲:Spark SQL 在字节跳动数据仓库领域的优化实践

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域,Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎,另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据,单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署,因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果,介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。

听众受益

1. 了解超大规模 Spark 集群在海量数据场景下的挑战和痛点;

2. 了解字节跳动如何提升 Spark 作业的稳定性;

3. 了解字节跳动如何将离线任务从 MapReduce 平滑迁移至 Spark;

4. 了解字节跳动如何从逻辑计划优化,物理计划优化,以及运行时优化等不同维度优化 Spark SQL 的整体性能。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86 17310043226