基础设施技术

会议室:百宴厅2
出品人:李双涛

在人工智能时代到来的当下,业务变化的速度前所未有,所有野心勃勃的计划,都需要更快... 展开 >

专题出品人:李双涛

饿了么 高级架构师

李双涛,饿了么中间件团队首席架构师、异地多活项目总架构师。17 年信息行业从业经验,曾工作于 Cisco,阿里巴巴,腾讯等公司,目前任职于饿了么中间件团队,担任高级架构师,在饿了么工作期间主要负责异地多活项目整体架构设计,以及饿了么数据复制中间件(DRC)的设计和开发。

经验方面,因为机缘巧合,经历过两个大型互联网公司的整体多活化过程,在多活方面积累了一些实战经验。技术方面,经过了许多项目,最后发现最擅长 Copy-Paste,偷各家之长以为己用,另外资质愚钝,所以乐于简化复杂事物,抽丝剥茧,寻找核心本源。

在业余时间,我喜欢玩玩传统艺术,创办了中华珍宝馆(ltfc.net)艺术社区,金羽人三书法俱乐部,用古老的文化来调剂一下新科技的压力。

地点:百宴厅2

专题:基础设施技术

在人工智能时代到来的当下,业务变化的速度前所未有,所有野心勃勃的计划,都需要更快,更强,更稳定的基础设施来支持,反过来说,基础设施如果出了问题,往往带来的都是全局性的大事故。

这个专题,聚焦于业界高手们最近在基础设施建设方面取得的创新,他们做了大量的工作和大胆的尝试,最终,让各种基础设施运行的更快,为上层业务提供更强大的功能支持,还让整个服务更加稳定可靠,坚如磐石。例如,更标准化的机房建设;基于公有云建立自己的云机房;各种业务服务向容器化方向发展;更大规模的,跨多个数据中心的分布式服务;高性能低造价的存储服务;高速,高容错的网络;各种强大的分布式数据库……

时间有限,我们只能展现其中一小部分,但更广阔的天地会随着你对这个主题的关注而逐步展开。

by 梁俊杰

腾讯
高级工程师
PhxQueue——微信开源高可用强一致分布式队列的设计与实现

PhxQueue 是微信开源的一款基于 Paxos 协议实现的高可用、高吞吐和高可靠的分布式队列,保证 At-Least-Once Delivery。PhxQueue 在微信内部广泛支持微信支付、公众平台等多个重要业务,日均入队达千亿,分钟入队峰值达一亿。PhxQueue 的主要特点有:提供严格有序出入队、多订阅、数据重放、限速等分布式队列实用功能;任意节点宕机可自动切换实现高可用;通过 Paxos 协议实现跨数据中心间同步复制提供强一致性;高效的同步刷盘模式以及实时对账增强数据可靠性。

听众受益

  1. 了解微信后台分布式消息队列的架构演进。
  2. 了解 PhxQueue 的功能特性。
  3. 了解 PhxQueue 设计与实现细节:队列状态机如何与 Paxos 结合;基于 Paxos 的存储层如何保证高性能;如何完成自动故障恢复。
  4. 了解微信后台消息队列最佳实践:单机故障屏蔽策略、限速逻辑。

by 星爵

Zilliz
创始人
100X Faster Data Analytics by GPU Acceleration

历次计算硬件体系结构的变革都会导致系统软件领域的革命。在人工智能时代,计算将从以 CPU 为核心的架构转移到以 GPGPU/FPGA/TPU 等众核处理器为核心的新架构。新的计算平台缺失合适的数据库系统软件。

联机分析处理(OLAP)和人工智能都是计算密集型任务。在过去数十年间,人工智能技术曾因 CPU 架构下计算能力的限制,裹足不前;OLAP 数据库技术也由于同样的原因,发展缓慢。近年来,以 GPGPU 为代表的众核处理器能提供巨量的算力,成功引领了人工智能领域的革命,也势必导致 OLAP 领域的颠覆性变革。

在本次演讲中,我们将介绍 Zilliz 如何使用众核处理器上的成千上万个处理核心进行超大规模并行数据处理,实现数据库操作的上百倍加速。同时,我们也将介绍 Zilliz 如何实现数据库系统和人工智能计算框架(Tensorflow、MXNet 和 Caffe 等)之间的直接数据通道,创造性地将人工智能处理引擎融合进数据库执行引擎,提供集数据存储、管理、分析和人工智能处理于一体的数据处理平台。

主要内容

  1. 基于 GPU的数据处理加速技术;
  2. GPU 数据库和内存数据库的性能对比;
  3. GPU 数据库的应用领域;
  4. GPU 数据库的主要厂商;
  5. GPU 数据库的局限和挑战。

听众受益

  • 帮助听众了解 2017 年以来在硅谷炙手可热的 GPU 数据库技术;
  • 帮助听众了解如何解决日益增长的大数据和业务实时分析需求之间的矛盾;
  • 帮助听众了解人工智能数据处理领域和 GPU 并行计算领域的最新技术;
  • 帮助听众了解最新的实时大数据分析加速技术。

by 郝一昕

360
搜索架构师
360 亿级搜索容器云平台架构实践

360 搜索是中国第二大搜索引擎,每日有上亿的用户访问量,数百条业务线来满足用户不同的需求;支撑其的基础设施规模包含十几个数据中心的数万台服务器;这样的量,任何一次硬件故障都可能影响到重要的业务;为了保障稳定性,依赖人工的传统运维方式在业务快速迭代的情况下对资源造成极大的浪费,且大量消耗人力;所以,360 搜索决定自研私有云来解决面临的问题;借着最近几年容器技术的发展,基于 Mesos 与 Kubernetes,我们重新定义了基础设施,对传统业务发布和运行环境进行改造,实现了近百个业务线的容器化,线上实例数上万;在改造的过程中,我们相继解决了传统业务容器化迁移的难点,包括但不限于数据持久化、网络、服务发现、负载均衡、监控等等;本次演讲的内容包含两方面,一是对 360 容器云平台架构的介绍,另则包含我们在上述实践中的经验总结。

听众受益

  • 了解一个容器云平台所需要的组件;
  • 如何从传统物理机环境迁移到容器。

by 兰建刚

饿了么
框架工具部研发总监
饿了么异地多活的基础设施建设

饿了么技术团队历时一年,做了一次脱胎换骨的整体技术改造;我们变更了服务的整体架构,由原来只支持单机房运行,升级为异地多活架构,服务可以多机房部署,多机房并行工作。异地多活上线后,饿了么可以更好的应对各种全局故障,更灵活的平衡服务压力,应对突发的流量高峰。

为了实现异地多活,饿了么在各个层面做了技术改造;总结出了 4 条基本架构原则,指导跨地域分布式服务的设计;开发了多活 6 大核心基础组件;还积累了很多工程实施上的经验教训。这些知识,将会在本次大会上做系统的分享,如果您有计划做异地多活,或者是想研究跨地域分布式服务,相信这次分享能够有所帮助。

听众受益

  1. 了解饿了么的整体多活结构;
  2. 了解我们总结的 4 条异地多活架构原则;
  3. 了解饿了么异地多活的 6 大核心组件实现;
  4. 了解我们在实施异地多活过程中获得的经验教训。

by 十品

阿里云
高级技术专家
8 年实践:从零打造大规模分布式数据库

为什么我们需要一款分布式数据库?如何定义分布式数据库?从零构建一款分布式数据库会碰到哪些挑战?如果从头再来,我们是否能做出更好的选择?这些问题,对于阿里云表格存储团队来说,在持续的思考并在实际工作中不断的论证。今天,我们希望对过去的工作做一个总结,将我们学到的经验分享给大家。这个分享中主要覆盖分布式数据库的核心要素及其在表格存储中的实现,并会讨论产品和服务的区别,自动化运维的挑战等。

听众受益

  1. 大规模分布式数据库的架构实践以及核心要素;
  2. 开发产品和提供服务的区别;
  3. 性能优化的手段、负载均衡的思路等重要技术细节。

by 孙彬

腾讯云
存储中心研发总监
腾讯混合云数据存储新技术——存储网关

存储网关是一种新的混合云存储基础设施技术,把存储网关部署在私有云中,提供 iSCSI 块存储、NFS、VTL 的接口对接应用系统,通过 cache、buffer 技术提供接近本地存储的 IO 性能,最终将数据存储到海量存储空间、稳定性、可靠性、灾备能力更好的公有云对象存储上,实现一个性能、存储容量、可靠性更均衡的混合云存储方案。本次演讲将深入介绍腾讯云存储网关的关键技术,以及基于存储网关实现混合云存储方案的最佳实践。

听众受益

  1. 存储系统设计实现的关键技术;
  2. 存储网关的系统架构与核心技术;
  3. 基于存储网关的混合云存储最佳实践。

by 陈雷

爱奇艺
资深工程师
基于 DPDK 的高性能负载均衡器的实现

为何传统的负载均衡器 LVS 无法实现高性能?基于 DPDK 在用户态实现一个高性能的“LVS”有哪些挑战和优势?

虽然不是业界第一个吃螃蟹的人,但爱奇艺 QLB 团队在过去的一年多来,从有限的公开资料开始,一步步实现了并发性能数倍于传统 LVS 的“DPVS”,内部测试显示并发性能和 Google Maglev 等相当。借这次机会,希望将研发过程中所遇到、解决了的问题和大家一起分享。主题会覆盖如何在利用用户态实现“LVS”,通过哪些技术实现“高性能”;研发过程遇到了哪些问题、如何解决?实际部署和上线过程又有哪些意想不到的情况;哪些部分可以改进,未来项目将如何演进等。

听众受益

  1. 您将了解传统 LVS 及 Kernel 性能瓶颈所在;
  2. 您将知道如何通过 DPDK 和相关技术实现高性能转发服务;
  3. 您将了解实现用户态高性能负载均衡过程遇到的问题及解决方案。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方