高可用HA(High Availability)是分布式系统架构设计中必须考虑的... 展开 >
腾讯专家工程师、微信架构部后台总监,负责微信后台基础业务架构,包括分布式存储平台和后台服务框架等。近两年专注于后台服务质量提升和高性能架构,构建了分布式数据库PaxosStore系统,支持过亿TPS的跨数据中心事务,应用于微信多个产品包括基础消息与朋友圈,公众平台与微信支付等。
高可用HA(High Availability)是分布式系统架构设计中必须考虑的因素之一,方法论上,冗余+。本专题将分享大规模互联网系统的架构设计和实现案例,从不同角度讨论如何做到互联网架构的高可用、可扩展。
当蚂蚁金服技术体系逐步对外输出时,如何确保稳定、弹性动态的技术架构能够做到对外 1:1 复制,同时能够在不同的业务场景下完成无缝集成和深度应用?本次分享将结合具体业务场景的迭代与演进需求,阐述蚂蚁金服在“业务侧,数据、缓存、RPC,消息和运维体系”等方面如何自研一套高可用架构,并成功帮助广发银行、西安银行等完成技术升级与改造。
内容大纲:
听众受益:
知乎从问答起步在过去的 8 年中逐步成长为一个大规模的综合性知识内容平台,今天在知乎站上有多达 38 万个话题,超过 2800 万个问题总共收获了超过 1.3 亿个回答,同时知乎还沉淀了数量众多的优质文章、电子书以及其他付费内容。知乎通过个性化首页推荐的方式在海量的信息中高效的分发用户感兴趣的优质内容。为了避免给用户推荐重复的内容,首页会记录下所有给用户推荐过的内容长期保存。直至今天知乎已读的数据规模已超过万亿并以每天接近 30 亿的速度持续增长,实时、可靠且高效的存储和查询已读数据存在着诸多挑战。在过去的一年多已读服务的架构在承载着 40000/s 新数据写入的同时还支撑着峰值每秒 30000 条独立请求和 1200 万文档已读状态的查询,并且在大流量的冲击下响应时间依旧稳定维持在 P99 24ms 以及 P999 45ms 的低水位线。在本次演讲中我们会分享目前知乎已读服务的整体架构以及我们如何在这个架构上应对各种挑战满足业务需求,希望这个分享能为大家开拓解决类似问题的思路。
内容大纲:
听众受益:
大数据时代下的图计算,已成为社交网络领域至关重要的数据分析和挖掘工具。业界图计算框架层出不穷,但对于微信量级的超大规模社交网络图数据都无能为力,微信数据团队博览众长,批判性地吸收业界图计算框架的设计精髓,首创在受限资源下能够以分钟级别完成微信全量社交数据计算的高性能分布式图计算平台 Plato,本次演讲会详细介绍 Plato 的设计理念和架构体系。
内容大纲:
由特征工程、训练平台、线上 Serving 组成的深度学习技术架构,Serving 腾讯广告海量请求,缩短深度学习模型调参周期,加快模型上线速度。
内容大纲:
1. 项目背景:深度学习技术平台助力腾讯广告技术全面转向深度模型;
2. 技术方案:
听众受益:
1. 了解构建生产环境深度学习平台的三个重要环节:特征工程、训练平台与 Serving 集群;
2. 对 Tensorflow 进行若干技术改进用于稀疏特征的端到端训练;
3. 广告或推荐系统应用深度学习技术的技术要点。
由特征工程、训练平台、线上 Serving 组成的深度学习技术架构,Serving 腾讯广告海量请求,缩短深度学习模型调参周期,加快模型上线速度。
内容大纲:
1. 项目背景:深度学习技术平台助力腾讯广告技术全面转向深度模型;
2. 技术方案:
听众受益:
1. 了解构建生产环境深度学习平台的三个重要环节:特征工程、训练平台与 Serving 集群;
2. 对 Tensorflow 进行若干技术改进用于稀疏特征的端到端训练;
3. 广告或推荐系统应用深度学习技术的技术要点。
京东物流网络在全球拥有 550+ 个仓储中心,这些仓储中心的高效生产背后是仓储系统和仓储数据分发平台。数据分发平台是仓储系统之上的一个“数据网关”,是连接仓储系统和京东商城、物流开放平台的纽带,主要负责商品、商家、订单等数据的下发和仓储各生产环节的状态回传,是整个仓储系统中最为关键的一环。随着业务规模的快速增长,数据分发平台在并发性能、可用性、低延时等方面面临着更高的要求和技术挑战。
本议题主要介绍数据分发平台近几年来所经历的架构演进过程、挑战及踩过的坑。在整个数据分发过程中,如何做到精确路由?如何实现分发管道的快速切换?如何监控业务异常数据?在仓储中心和 IDC 之间网络延时和闪断的条件下,如何设计出对网络有较高容忍度的架构?这些都会在议题中逐一介绍。
内容大纲:
满足基础功能的单应用部署模式;
按业务职责进行应用拆分,高扩展能力的分布式部署模式;
支持智能监控、智能转发网关的架构模式;
高并发情况下如何保证系统低延时、高可用;
网络延时和闪断的条件下如何保证数据正常分发;
消息数据大量堆积后如何快速提升系统响应能力;
听众受益:
回顾2018年,为了支撑业务的发展,拼购系统在架构上做了三件事:
本次演讲主题也将围绕着这三个方面展开。先介绍目前苏宁拼购系统的业务架构、系统架构、技术架构和数据架构,让大家对苏宁拼购有一个宏观的认识。在此基础上,介绍拼购平台化的建设,如何合理地进行系统拆分,使拼购平台可扩展性非常强,并以苏宁小店入驻拼购平台的项目“小店拼团”为例子来说明;在大流量、高并发下如果要保证系统的高可用性,就要考虑并解决一系列瓶颈问题,比如分布式数据库扩展、主购物流程异步化、促销洪峰的降级容错手段、故障发现与快速定位,以上将在拼购高可用设计中详述。最后一块内容是介绍拼购现在正在做的多活架构设计工作,这也是目前高可用系统的最终形态,先论述拼购业务做多活的基本原则和整体框架,再介绍多活的路有流量切换方案、数据复制方案、一致性保证方案等。
内容大纲:
拼购多活的基本原则和整体框架
路有流量切换方案——多活切换管理平台
数据同步与复制方案
拼购全链路多活实践案例