在人工智能时代到来的当下,业务变化的速度前所未有,所有野心勃勃的计划,都需要更快... 展开 >
李双涛,饿了么中间件团队首席架构师、异地多活项目总架构师。17 年信息行业从业经验,曾工作于 Cisco,阿里巴巴,腾讯等公司,目前任职于饿了么中间件团队,担任高级架构师,在饿了么工作期间主要负责异地多活项目整体架构设计,以及饿了么数据复制中间件(DRC)的设计和开发。
经验方面,因为机缘巧合,经历过两个大型互联网公司的整体多活化过程,在多活方面积累了一些实战经验。技术方面,经过了许多项目,最后发现最擅长 Copy-Paste,偷各家之长以为己用,另外资质愚钝,所以乐于简化复杂事物,抽丝剥茧,寻找核心本源。
在业余时间,我喜欢玩玩传统艺术,创办了中华珍宝馆(ltfc.net)艺术社区,金羽人三书法俱乐部,用古老的文化来调剂一下新科技的压力。
在人工智能时代到来的当下,业务变化的速度前所未有,所有野心勃勃的计划,都需要更快,更强,更稳定的基础设施来支持,反过来说,基础设施如果出了问题,往往带来的都是全局性的大事故。
这个专题,聚焦于业界高手们最近在基础设施建设方面取得的创新,他们做了大量的工作和大胆的尝试,最终,让各种基础设施运行的更快,为上层业务提供更强大的功能支持,还让整个服务更加稳定可靠,坚如磐石。例如,更标准化的机房建设;基于公有云建立自己的云机房;各种业务服务向容器化方向发展;更大规模的,跨多个数据中心的分布式服务;高性能低造价的存储服务;高速,高容错的网络;各种强大的分布式数据库……
时间有限,我们只能展现其中一小部分,但更广阔的天地会随着你对这个主题的关注而逐步展开。
PhxQueue 是微信开源的一款基于 Paxos 协议实现的高可用、高吞吐和高可靠的分布式队列,保证 At-Least-Once Delivery。PhxQueue 在微信内部广泛支持微信支付、公众平台等多个重要业务,日均入队达千亿,分钟入队峰值达一亿。PhxQueue 的主要特点有:提供严格有序出入队、多订阅、数据重放、限速等分布式队列实用功能;任意节点宕机可自动切换实现高可用;通过 Paxos 协议实现跨数据中心间同步复制提供强一致性;高效的同步刷盘模式以及实时对账增强数据可靠性。
历次计算硬件体系结构的变革都会导致系统软件领域的革命。在人工智能时代,计算将从以 CPU 为核心的架构转移到以 GPGPU/FPGA/TPU 等众核处理器为核心的新架构。新的计算平台缺失合适的数据库系统软件。
联机分析处理(OLAP)和人工智能都是计算密集型任务。在过去数十年间,人工智能技术曾因 CPU 架构下计算能力的限制,裹足不前;OLAP 数据库技术也由于同样的原因,发展缓慢。近年来,以 GPGPU 为代表的众核处理器能提供巨量的算力,成功引领了人工智能领域的革命,也势必导致 OLAP 领域的颠覆性变革。
在本次演讲中,我们将介绍 Zilliz 如何使用众核处理器上的成千上万个处理核心进行超大规模并行数据处理,实现数据库操作的上百倍加速。同时,我们也将介绍 Zilliz 如何实现数据库系统和人工智能计算框架(Tensorflow、MXNet 和 Caffe 等)之间的直接数据通道,创造性地将人工智能处理引擎融合进数据库执行引擎,提供集数据存储、管理、分析和人工智能处理于一体的数据处理平台。
360 搜索是中国第二大搜索引擎,每日有上亿的用户访问量,数百条业务线来满足用户不同的需求;支撑其的基础设施规模包含十几个数据中心的数万台服务器;这样的量,任何一次硬件故障都可能影响到重要的业务;为了保障稳定性,依赖人工的传统运维方式在业务快速迭代的情况下对资源造成极大的浪费,且大量消耗人力;所以,360 搜索决定自研私有云来解决面临的问题;借着最近几年容器技术的发展,基于 Mesos 与 Kubernetes,我们重新定义了基础设施,对传统业务发布和运行环境进行改造,实现了近百个业务线的容器化,线上实例数上万;在改造的过程中,我们相继解决了传统业务容器化迁移的难点,包括但不限于数据持久化、网络、服务发现、负载均衡、监控等等;本次演讲的内容包含两方面,一是对 360 容器云平台架构的介绍,另则包含我们在上述实践中的经验总结。
饿了么技术团队历时一年,做了一次脱胎换骨的整体技术改造;我们变更了服务的整体架构,由原来只支持单机房运行,升级为异地多活架构,服务可以多机房部署,多机房并行工作。异地多活上线后,饿了么可以更好的应对各种全局故障,更灵活的平衡服务压力,应对突发的流量高峰。
为了实现异地多活,饿了么在各个层面做了技术改造;总结出了 4 条基本架构原则,指导跨地域分布式服务的设计;开发了多活 6 大核心基础组件;还积累了很多工程实施上的经验教训。这些知识,将会在本次大会上做系统的分享,如果您有计划做异地多活,或者是想研究跨地域分布式服务,相信这次分享能够有所帮助。
为什么我们需要一款分布式数据库?如何定义分布式数据库?从零构建一款分布式数据库会碰到哪些挑战?如果从头再来,我们是否能做出更好的选择?这些问题,对于阿里云表格存储团队来说,在持续的思考并在实际工作中不断的论证。今天,我们希望对过去的工作做一个总结,将我们学到的经验分享给大家。这个分享中主要覆盖分布式数据库的核心要素及其在表格存储中的实现,并会讨论产品和服务的区别,自动化运维的挑战等。
存储网关是一种新的混合云存储基础设施技术,把存储网关部署在私有云中,提供 iSCSI 块存储、NFS、VTL 的接口对接应用系统,通过 cache、buffer 技术提供接近本地存储的 IO 性能,最终将数据存储到海量存储空间、稳定性、可靠性、灾备能力更好的公有云对象存储上,实现一个性能、存储容量、可靠性更均衡的混合云存储方案。本次演讲将深入介绍腾讯云存储网关的关键技术,以及基于存储网关实现混合云存储方案的最佳实践。
为何传统的负载均衡器 LVS 无法实现高性能?基于 DPDK 在用户态实现一个高性能的“LVS”有哪些挑战和优势?
虽然不是业界第一个吃螃蟹的人,但爱奇艺 QLB 团队在过去的一年多来,从有限的公开资料开始,一步步实现了并发性能数倍于传统 LVS 的“DPVS”,内部测试显示并发性能和 Google Maglev 等相当。借这次机会,希望将研发过程中所遇到、解决了的问题和大家一起分享。主题会覆盖如何在利用用户态实现“LVS”,通过哪些技术实现“高性能”;研发过程遇到了哪些问题、如何解决?实际部署和上线过程又有哪些意想不到的情况;哪些部分可以改进,未来项目将如何演进等。