郭俊,就职于字节跳动(上海)基础架构部,现负责数据仓库架构,包含以 Spark SQL 为代表的 OLAP 引擎优化,实时 ETL 系统优化,图计算技术探索与应用。曾就职于 Cisco 负责 Streaming MPP 系统研发,数据仓库架构设计与性能调优;曾在 eBay 负责大数据基础架构的优化工作 。
郭俊,就职于字节跳动(上海)基础架构部,现负责数据仓库架构,包含以 Spark SQL 为代表的 OLAP 引擎优化,实时 ETL 系统优化,图计算技术探索与应用。曾就职于 Cisco 负责 Streaming MPP 系统研发,数据仓库架构设计与性能调优;曾在 eBay 负责大数据基础架构的优化工作 。
Spark 在字节跳动内部扮演着重要角色。在数据仓库领域,Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎,另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据,单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署,因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果,介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。
1. 了解超大规模 Spark 集群在海量数据场景下的挑战和痛点;
2. 了解字节跳动如何提升 Spark 作业的稳定性;
3. 了解字节跳动如何将离线任务从 MapReduce 平滑迁移至 Spark;
4. 了解字节跳动如何从逻辑计划优化,物理计划优化,以及运行时优化等不同维度优化 Spark SQL 的整体性能。