大数据系统架构

会议室:百宴厅4
出品人:臧秀涛

业务的增长会带来大量数据,很多公司都搭建了自己的大数据处理平台,或者向新的数据平... 展开 >

专题出品人:臧秀涛

InfoQ QCon大会主编

臧秀涛,现就职于InfoQ,任QCon大会主编,负责QCon大会的策划和组织。2010年毕业于中国科学院计算技术研究所。曾先后在完美世界等公司从事软件开发工作。2014年加入InfoQ。业余喜爱读书和翻译,曾翻译出版过《C++ API设计》、《Groovy程序设计》和《Java性能权威指南》等技术图书。业余也维护了一个微信公众号“开发资讯(dev-news)”,欢迎关注。

对QCon大会有任何建议或想法,欢迎通过微博 @臧秀涛 与我联系。

地点:百宴厅4

专题:大数据系统架构

业务的增长会带来大量数据,很多公司都搭建了自己的大数据处理平台,或者向新的数据平台/框架迁移。本专题将关注大数据平台技术选型、搭建、系统迁移和优化方面的经验。

by 谢巍盛

甜橙金融
大数据总监
从0到1构建企业大数据体系
所属领域: 大数据

经过几年的迅猛发展,甜橙金融注册用户突破5亿,月均活跃3000多万用户,年交易额超1, 700亿。旗下拥有翼支付、红包套餐、甜橙理财、橙分期、甜橙保险、甜橙国际、甜橙信用等业务。业务的增长带来了海量的数据,也随即为大数据平台带来了严峻的挑战。

甜橙金融大数据经历了从TD到Spark的迁移;自助BI分析平台开发建设,高效支撑业务部门数据提取,数据下发及长短时,交互式查询需求;数据科学平台研发,真正做到“平民化”机器学习,以最低门槛赋能业务人员进行业务模型开发与应用;将流计算应用于诸如实时业务监控,实时交易风控监测等场景并通过优化提升10倍性能,利用复杂网络进行精准营销及团体反欺诈等。此次分享将聚焦我们在平台建设规划,架构选型及实践中碰到的问题并探讨诸如集群规划建设,作业调度优化,权限中心建设,标签体系构建及AI算法模型落地等方面的问题。

听众受益

传统互联网企业如何进行企业大数据体系建设,包括:

  1. 数据治理及数据应用;
  2. 企业大数据平台建设与应用,包括:自助BI分析平台、数据科学平台建设、流计算、复杂网络平台等;
  3. AI应用中的案例分享并探讨AI赋能业务中最大的阻力是什么。

by 滕昱

Dell EMC
软件开发总监

Project Pravega是DELLEMC设计并开源的用来支持实时流数据和分析的存储平台,支持存储无限的数据流并同时满足企业用户对数据持久性严格要求的产品。

Pravega会作为DELLEMC给IoT产业提供的端到端解决方案中流存储的部分出现,另外在整个解决方案也包括流行的stream processors, 例如Apache Flink and Apache Spark,也包括DELLEMC已经发布的企业级分布式文件和对象存储平台。

Pravega有如下特性:

  • 精确的一次性语义支持(Exactly Once schematic)
  • 业务自动伸缩支持(Auto scaling)
  • 分布式计算原语(Distributed Computing Primitive)
  • 高效的写性能(Write Efficiency)
  • 无限数据存储能力(Unlimited Retention)
  • 数据安全和持久性的支持(Durability)
  • 事务支持(Transaction Support)

听众受益

  • 了解streaming系统和实时分析平台的use case和现阶段的solution/Architecture的局限性
  • 了解Project Pravega是如何从架构上解决这些局限性
  • 分布式系统中 Exactly Once/ Transaction Support/ Auto scaling 是如何设计实现的

by 俞育才

eBay
大数据架构师
构建现代化数仓: 将MPP DBMS迁移至Spark
所属领域: 大数据、 架构

eBay使用MPP数据仓库已经有二十年的历史,我们的系统有60PB的数据,上万张的核心表,他们支撑着eBay最核心的商务逻辑和站点功能。从17年开始,eBay将这个庞大的数仓向Spark做迁移,使用我们开发的工具,这其中90%的工作都可以自动化地完成,并且通过优化Spark框架,我们节省了一半的内存。本次演讲我们将分享这迁移过程中的实践,经验与优化。

听众受益

  • 自动化数据迁移工具集:元数据管理,SQL转换器,管道生成器,数据验证,工作流控制等;
  • 数据的物理布局:如何对表做bucket和partition;
  • 使用Spark的Adaptive Execution简化参数配置,优化内存使用,处理数据倾斜;
  • 使用Spark的Indexed Bucket提升大量核心表的查询性能。

by 王绍翾(大沙)

阿里巴巴
资深技术专家,Apache Flink Committer

大数据计算框架, big Data Infrastructure (DI), 往往最终服务的都是Business Intelligence (BI) 和 Artificial Intelligence (AI)类型的计算。阿里巴巴Blink是一款基于Apache Flink改造的大数据计算引擎。Flink从诞生的第一天开始就是成为一个统一批处理、流处理以及人工智能计算的引擎。我们相信Flink的架构具有独特的优势,并且一直在为这个目标而努力。本演讲将分享阿里巴巴是如何打造出Blink这一款大数据计算引擎来支撑大数据计算的Data Infrastrucuture,从而服务于各式各样的Business Intelligence (BI) 和 Artificial Intelligence (AI) 业务。

 

by 程怡

百度
资深研发工程师

 分布式流式计算在百度搜索公司有多年应用,是搜索广告和建库、信息流等上层应用的重要基础设施之一,近年更是对高吞吐场景的时效性、数据准确性和数据流的稳定性提出了更高要求。面对挑战,百度自研了新一代流式计算系统DStream3,可满足低至10ms级别的系统延迟、Exactly-once/At-least-once/At-most-once三种准确性语义,并经过了大规模工业级应用的验证。该主题以DStream3为例,介绍以下内容: 1. 如何设计并实现一个业界领先的流式计算系统 2. 工业级场景下的设计折衷、线上验证与实践经验 。

听众受益

1. 如果您希望自行研发流式计算系统,该主题将弥补分布式理论与工程实践之间的巨大鸿沟;

2. 如果您在从事数据应用层的架构或研发,了解流式计算当前的擅长与局限,可以帮助选型和设计;

3. 如果您是技术控,请与百度流式计算团队一起,共同探讨超大吞吐、超低延迟的流式计算问题吧! 

by 彭渊

腾讯
T4专家 资深架构师

对于腾讯庞大的大数据分析业务,几千台的hadoop集群近百P级的存储总量,每日全网app产生千亿的消息数据入库,需要针对几十亿iemi手机设备去重,并关联数百亿的历史全表,进行曝光、点击、pv、uv、日活、新增、留存等统计指标分析,当前所有业务的ETL清洗、统计计算、用户画像都全部依赖离线m/r和hive sql,给集群造成很大压力,系统负载高任务积压重,计算耗时久业务响应慢(t+1),难以及时反馈市场信息的变化,不仅是技术上的巨大挑战,同时业务的迅速增长变化对当前技术团队的工作模式和流程也造成很大挑战。如何突破现有大数据分析架构瓶颈?本分享内容将带来腾讯大数据技术的新发展和架构实践,介绍基于自研bitmap技术的大数据系统“锋刃”,以及olap全新驱动模式的架构战略,真正做到秒级实时查看每分钟指标、全维度的用户olap自助分析、闭环的动态运营体系。 

听众受益

  • 流处理bitmap的大数据实时分析架构和落地实践
  • 自研bitmap引擎和RoaringBitmap的对比优势
  • 腾讯灯塔业务场景实施
  • 腾讯天玑业务场景实施
  • 腾讯浏览器ABtest业务场景实施
  • 海量大数据的rolap和molap架构实践

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:17310043226