高可用高性能架构

会议室:白云宴会厅1
出品人:许家滔

高可用HA(High Availability)是分布式系统架构设计中必须考虑的... 展开 >

专题出品人:许家滔

腾讯 微信架构部后台总监

腾讯专家工程师、微信架构部后台总监,负责微信后台基础业务架构,包括分布式存储平台和后台服务框架等。近两年专注于后台服务质量提升和高性能架构,构建了分布式数据库PaxosStore系统,支持过亿TPS的跨数据中心事务,应用于微信多个产品包括基础消息与朋友圈,公众平台与微信支付等。

地点:白云宴会厅1

专题:高可用高性能架构

高可用HA(High Availability)是分布式系统架构设计中必须考虑的因素之一,方法论上,冗余+。本专题将分享大规模互联网系统的架构设计和实现案例,从不同角度讨论如何做到互联网架构的高可用、可扩展。

by 梁耀斌(追源)

蚂蚁金服
高级技术专家

当蚂蚁金服技术体系逐步对外输出时,如何确保稳定、弹性动态的技术架构能够做到对外 1:1 复制,同时能够在不同的业务场景下完成无缝集成和深度应用?本次分享将结合具体业务场景的迭代与演进需求,阐述蚂蚁金服在“业务侧,数据、缓存、RPC,消息和运维体系”等方面如何自研一套高可用架构,并成功帮助广发银行、西安银行等完成技术升级与改造。

内容大纲:

  1. 背景:高可用的定义和标准;
  2. 企业级高可用架构的设计思路及总体介绍;
  3. 从业务侧,数据,缓存,RPC,消息和运维体系等方面分开介绍 mPaaS 的具体实践经验;
  4. 对外输出时碰到的问题,怎么去解决;
  5. 结论:给客户提供不同等级的高可用服务,以及客户要提升高可用等级所需要走过的路径。

听众受益:

  1. 复杂业务场景下的高可用架构设计思路;
  2. 如何体系化地考虑高可用,从业务侧,数据、缓存、RPC,消息和运维体系等多个维度考虑,了解到对应技术点;
  3. 给客户提供高可用策略:不同的输出方案和升级演进的方案。

by 孙晓光

知乎
搜索后端负责人

知乎从问答起步在过去的 8 年中逐步成长为一个大规模的综合性知识内容平台,今天在知乎站上有多达 38 万个话题,超过 2800 万个问题总共收获了超过 1.3 亿个回答,同时知乎还沉淀了数量众多的优质文章、电子书以及其他付费内容。知乎通过个性化首页推荐的方式在海量的信息中高效的分发用户感兴趣的优质内容。为了避免给用户推荐重复的内容,首页会记录下所有给用户推荐过的内容长期保存。直至今天知乎已读的数据规模已超过万亿并以每天接近 30 亿的速度持续增长,实时、可靠且高效的存储和查询已读数据存在着诸多挑战。在过去的一年多已读服务的架构在承载着 40000/s 新数据写入的同时还支撑着峰值每秒 30000 条独立请求和 1200 万文档已读状态的查询,并且在大流量的冲击下响应时间依旧稳定维持在 P99 24ms 以及 P999 45ms 的低水位线。在本次演讲中我们会分享目前知乎已读服务的整体架构以及我们如何在这个架构上应对各种挑战满足业务需求,希望这个分享能为大家开拓解决类似问题的思路。

内容大纲:

  1. 业务场景:知乎个性化首页利用已读过滤服务高效率分发用户未阅读过的优质内容 。
  2. 服务架构:知乎目前已读数据已经达万亿条量级并且还在以更快的加速度持续增长,而缓存系统则是万亿规模数据集高吞吐低时延的关键点。已读服务通过将缓冲智能化来应对数据频繁更新和数据高度稀疏对缓存系统在一致性和命中率方面的挑战。 
  3. 原生分布式数据库的迁移代价和海量数据集下的收益。

听众受益:

  1. 大量更新的海量数据缓存系统设计;
  2. 缓存一致性的考量和取舍;
  3. 原生分布式数据库的迁移成本和巨大收益。

 

by 于东海

腾讯
图计算架构师

大数据时代下的图计算,已成为社交网络领域至关重要的数据分析和挖掘工具。业界图计算框架层出不穷,但对于微信量级的超大规模社交网络图数据都无能为力,微信数据团队博览众长,批判性地吸收业界图计算框架的设计精髓,首创在受限资源下能够以分钟级别完成微信全量社交数据计算的高性能分布式图计算平台 Plato,本次演讲会详细介绍 Plato 的设计理念和架构体系。

内容大纲:

  1. 图计算近年来的发展历程和经典计算模式;
  2. 高性能计算平台的设计理念和优化原则;
  3. 微信高性能图计算平台 Plato 的架构设计;
  4. 基于 Plato 的图算法优化和执行效果。

by 唐溪柳

腾讯广告
总架构师/T4 专家

由特征工程、训练平台、线上 Serving 组成的深度学习技术架构,Serving 腾讯广告海量请求,缩短深度学习模型调参周期,加快模型上线速度。

 

内容大纲:

1. 项目背景:深度学习技术平台助力腾讯广告技术全面转向深度模型;
2. 技术方案:

  • 构建特征工程、训练平台、线上 Serving 系统边界;
  • 特征工程优化特征存储,促进特征共享;
  • 训练平台建模 API 屏蔽模型训练技术细节,将建模配置化;
  • 建设通用模型服务 Serving 集群,优化 Latency 与系统稳定性。

听众受益:

1. 了解构建生产环境深度学习平台的三个重要环节:特征工程、训练平台与 Serving 集群;
2. 对 Tensorflow 进行若干技术改进用于稀疏特征的端到端训练;
3. 广告或推荐系统应用深度学习技术的技术要点。

by 唐溪柳

腾讯广告
总架构师/T4 专家

由特征工程、训练平台、线上 Serving 组成的深度学习技术架构,Serving 腾讯广告海量请求,缩短深度学习模型调参周期,加快模型上线速度。

 

内容大纲:

1. 项目背景:深度学习技术平台助力腾讯广告技术全面转向深度模型;
2. 技术方案:

  • 构建特征工程、训练平台、线上 Serving 系统边界;
  • 特征工程优化特征存储,促进特征共享;
  • 训练平台建模 API 屏蔽模型训练技术细节,将建模配置化;
  • 建设通用模型服务 Serving 集群,优化 Latency 与系统稳定性。

听众受益:

1. 了解构建生产环境深度学习平台的三个重要环节:特征工程、训练平台与 Serving 集群;
2. 对 Tensorflow 进行若干技术改进用于稀疏特征的端到端训练;
3. 广告或推荐系统应用深度学习技术的技术要点。

by 江龙飞

京东物流
资深架构师

京东物流网络在全球拥有 550+ 个仓储中心,这些仓储中心的高效生产背后是仓储系统和仓储数据分发平台。数据分发平台是仓储系统之上的一个“数据网关”,是连接仓储系统和京东商城、物流开放平台的纽带,主要负责商品、商家、订单等数据的下发和仓储各生产环节的状态回传,是整个仓储系统中最为关键的一环。随着业务规模的快速增长,数据分发平台在并发性能、可用性、低延时等方面面临着更高的要求和技术挑战。

本议题主要介绍数据分发平台近几年来所经历的架构演进过程、挑战及踩过的坑。在整个数据分发过程中,如何做到精确路由?如何实现分发管道的快速切换?如何监控业务异常数据?在仓储中心和 IDC 之间网络延时和闪断的条件下,如何设计出对网络有较高容忍度的架构?这些都会在议题中逐一介绍。

内容大纲:

  1. 仓储数据分发平台介绍;
  2. 架构演进过程:
    • 满足基础功能的单应用部署模式;

    • 按业务职责进行应用拆分,高扩展能力的分布式部署模式;

    • 支持智能监控、智能转发网关的架构模式;

  3. 面对高性能、高可用的挑战及解决思路:
    • 高并发情况下如何保证系统低延时、高可用;

    • 网络延时和闪断的条件下如何保证数据正常分发;

    • 消息数据大量堆积后如何快速提升系统响应能力;

  4. 未来的技术展望。


听众受益:

  1. 了解高并发场景下数据分发类系统的架构设计方案和思路;
  2. 了解高性能、高可用架构设计的一些思路和踩过的坑:
  • 缓存使用设计以及使用过程中碰到的问题;
  • 业务、系统两个层面监控设计的一些思路;
  • 降级方案设计的一些思路和经验。

by 朱羿全

苏宁易购
IT 总部高级技术经理

回顾2018年,为了支撑业务的发展,拼购系统在架构上做了三件事:

  1. 系统拆分已实现平台化、服务化;
  2. 高可用瓶颈问题解决:包括分布式数据库、主购物流程异步化等工作;
  3. 拼购系统多活架构的设计。

本次演讲主题也将围绕着这三个方面展开。先介绍目前苏宁拼购系统的业务架构、系统架构、技术架构和数据架构,让大家对苏宁拼购有一个宏观的认识。在此基础上,介绍拼购平台化的建设,如何合理地进行系统拆分,使拼购平台可扩展性非常强,并以苏宁小店入驻拼购平台的项目“小店拼团”为例子来说明;在大流量、高并发下如果要保证系统的高可用性,就要考虑并解决一系列瓶颈问题,比如分布式数据库扩展、主购物流程异步化、促销洪峰的降级容错手段、故障发现与快速定位,以上将在拼购高可用设计中详述。最后一块内容是介绍拼购现在正在做的多活架构设计工作,这也是目前高可用系统的最终形态,先论述拼购业务做多活的基本原则和整体框架,再介绍多活的路有流量切换方案、数据复制方案、一致性保证方案等。

内容大纲:

  1. 苏宁拼购整体架构介绍
    • 业务架构介绍
    • 系统架构介绍
    • 技术架构介绍
    • 数据架构介绍
  2. 拼购系统平台化的设计与实现
    • 系统业务的整体拆分方案
    • 强可扩展性的典型案例:苏宁小店与拼购的快速融合——“小店拼团”
  3. 拼购系统高可用的设计与实现
    • 分布式数据库在拼购系统中的应用
    • 主购物流程的异步化改造
    • 促销洪峰的降级容错手段
    • 日常故障发现与快速诊断
  4. 拼购系统多活架构的设计与实现
    • 拼购多活的基本原则和整体框架

    • 路有流量切换方案——多活切换管理平台

    • 数据同步与复制方案

    • 拼购全链路多活实践案例

交通指南

© 2019 Baidu - GS(2018)5572号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐Joy
或致电:+86-13269078023