在阿里巴巴一直从事数据相关的工作,负责过淘宝无线海量数据的采集/分析,目前在阿里云智能 E-MapReduce 团队从事 Spark 内核优化相关工作,Spark Contributor。
在阿里巴巴一直从事数据相关的工作,负责过淘宝无线海量数据的采集/分析,目前在阿里云智能 E-MapReduce 团队从事 Spark 内核优化相关工作,Spark Contributor。
Jindo 是阿里云智能 E-MapReduce 团队在开源的 Apache Spark 基础上自主研发的云原生 OLAP 引擎。Jindo 在开源 Spark 版本基础上做了大量优化和扩展,并且深度集成和连接了众多阿里云基础服务(如 OSS )。用户可以利用Jindo在云上快速构建高性能、易于伸缩、低成本的存储计算分离架构的数据仓库系统。E-MapReduce 团队基于 Jindo 完成了 TPC-DS 测试,在性能和性价比指标上都名列第一,成为 TPC 系列 Benchmark 认证的全球首个公共云产品。
本次分享会具体介绍 Jindo 的实践与优化,包括 Transaction 的支持,RuntimeFilter/Relational Cache/File Index 等性能优化,以及 Jindo 在云原生数仓的应用实践。