腾讯专有云企业版(TCE)高可用技术白皮书
高可用技术白皮书腾讯专有云公众号腾讯专有云PaaS平台(TCS)官网 腾讯专有云企业版(TCE)官网 TENCENT CLOUD ENTERPRISE版权声明商标声明本文档著作权归腾讯云计算(北京)有限责任公司(以下简称“腾讯云”)单独所有,未经腾讯云事先书面许可,任何主体不得以任何方式或理由使用本文档,包括但不限于复制、修改、传播、公开、剽窃全部或部分本文档内容。免责声明本文档旨在向客户介绍本文档撰写时,腾讯云相关产品、服务的当时的整体概况,部分产品或服务在后续可能因技术调整或项目设计等任何原因,导致其服务内容、标准等有所调整。因此,本文档仅供参考,腾讯云不对其准确性、适用性或完整性等做任何保证。您所购买、使用的腾讯云产品、服务的种类、内容、服务标准等,应以您和腾讯云之间签署的合同约定为准,除非双方另有约定,否则,腾讯云对本文档内容不做任何明示或默示的承诺或保证。“腾讯”、“腾讯云”及其它腾讯云服务相关的商标、标识等均为腾讯云及其关联公司各自所有。若本文档涉及第三方主体的商标,则应依法由其权利人所有。CONTENTS目录contents前言业务高可用的定义与需求基础概念建设目标需求与要素分解01030412.1 | 双AZ部署2.2 | 双AZ+仲裁区部署2.3 | 三AZ部署2.4 | 双Region部署2.5 | 同城双活+异地灾备部署0809101112解决方案总体架构介绍标准模型05082总体设计133切换场景单AZ互联网出口故障CVM主动热迁移/被动疏散计算与存储区域整机柜故障网络整机柜故障双AZ部署时单AZ整体故障双AZ+仲裁区部署时单AZ整体故障地域级故障,跨地域切换接管地域级数据备份容灾双活+仲裁情况下AZ脑裂343537394142434445IaaS层高可用设计144.1 | 基础网络高可用4.2 | 网络外连高可用4.3 | 负载均衡和VPCGW高可用4.4 | 计算高可用4.5 | 存储高可用4.6 | IaaS层高可用小结141517192124PaaS层高可用设计255.1 | 消息队列与流式数据引擎高可用5.2 | 缓存高可用5.3 | 关系型数据库高可用5.4 | 微服务框架高可用5.5 | PaaS层高可用小结2527283030管控平面与支撑组件高可用316.1 | 管控平面高可用 6.2 | 底层支撑组件高可用31324实战案例6某国家级5G新媒体平台附录5小结461.1 | 5G新媒体平台客户需求与挑战1.2 | 5G新媒体行业云高可用方案1.3 | 客户价值464647双活AZ+仲裁案例:某头部农商银行482.1 | 金融云客户需求与挑战2.2 | 金融云高可用方案2.3 | 客户价值484950双Region案例:某国有大型保险集团513.1 | 金融云客户需求与挑战3.2 | 金融云高可用方案3.3 | 客户价值515152三AZ案例:某头部股份制商业银行524.1 | 金融云客户需求与挑战4.2 | 金融云高可用方案4.3 | 客户价值525253本文档用于帮助用户掌握云产品的操作方法与注意事项。前言文档目的本文档主要适用于如下对象群体:目标读者本文档中可能采用的符号约定如下:符号约定符号说明表示是正文的附加信息,是对正文的强调和补充。表示有低度的潜在风险,主要是用户必读或较关键信息,若用户忽略注意消息,可能会因误操作而带来一定的不良后果或者无法成功操作。表示有中度的潜在风险,例如用户应注意的高危操作,如果忽视这些文本,可能导致设备损坏、数据丢失、设备性能降低或不可预知的结果。表示有高度潜在危险,例如用户应注意的禁用操作,如果不能避免,会导致系统崩溃、数据丢失且无法修复等严重问题。基础概念1.1在灾难过程中的数据丢失量,用来衡量系统的数据冗余备份能力,即数据可靠性,目的是将数据丢失量控制在可接受范围内RPO [Recovery Point Objective]从灾难状态恢复到可运行状态所需的时间,用来衡量系统的业务恢复能力,即业务连续性,目的是灾难发生后,能迅速恢复业务RTO [Recovery Time Objective]在运营级与企业级应用中,一个重要的概念是服务级别协议SLA(Service Level Agreement)。SLA的关键指标有可用性(Availability)、业务恢复时间RTO (Recovery Time Objective),数据恢复目标RPO(Recovery Point Objective)。衡量可用性的指标,一般为可用性百分比。以电信运营商(ISP)提供的企业专线服务为例,如ISP向客户承诺,可用性指标为99.99%(一般称为4个9),每年计划外停止服务的时间在全年服务时间中的占比,就不应当高于0.01%,也就是365(天)×24(小时)×0.01%=0.876(小时),合52.56分钟。一些较为重要的业务有可能对可用性提出更高的要求,如99.999%(5个9)或99.9999%(6个9),对应的计划外停止服务时间就不应该多于5.256分钟或0.5256分钟(约合31.5秒)。业务恢复时间RTO指的是从灾难状态恢复到可运行状态所需的时间,用来衡量系统的业务恢复能力,也就是所谓的业务连续性。通过对系统RTO的优化,可以使得灾难发生时,能够迅速恢复业务。数据恢复目标RPO指的是在灾难过程中的数据丢失量,用来衡量系统的数据冗余备份能力,也就是所谓的数据可靠性。通过对系统RPO的优化,可以使得在灾难发生时尽量少丢失数据。腾讯专有云企业版(TCE)是一个服务分层分级、架构多地多活、资源分布部署、管控逻辑统一的全栈智能云解决方案。从逻辑上云平台组件和云产品均有全局(Global)、地域(Region)、可用区(AZ)三个级别的层次划分,它们最终都需要部署在实际的DC,也就是物理数据中心内。图1-1 高可用关键指标RTO与RPO0201故障发生时间点RPORTO概念详细说明Global是一朵专有云TCE在逻辑上的最顶层划分,也经常会用来指代整个专有云TCE,Global可以包含一个或多个Region。Global级服务在整个专有云TCE范围内都是同一套服务,无论在专有云TCE的任何Region和AZ均生效和可用。在多Region的场景下,Global服务的高可用方案为 1(MR) + 1(SR) + n(OR)模式。目前仅有账户权限和计费为全局服务。全局(Global)Availability Zone(AZ)是一朵专有云TCE在逻辑上的最小单元,每个AZ应设计为独立的物理基础设施故障域,通常分别部署在一个具备独立的供电、制冷和冗余的网络链路的物理数据中心,避免因物理基础设施故障而带来的业务不可用。AZ级服务仅在专有云TCE的该AZ内生效和可用,不同AZ之间不能共享使用。因此强烈建议用户针对业务设计多AZ的高可用和灾备,避免业务受到物理基础设施故障的影响。在多Region多AZ场景下,每个Region服务的高可用方案为 1(MAZ) + 1(SAZ)+1(AAZ)或者1(MAZ) + 1(SA
腾讯专有云企业版(TCE)高可用技术白皮书,点击即可下载。报告格式为PDF,大小25.34M,页数34页,欢迎下载。