联系我们

苏州奥尔马电子科技有限公司

江苏省苏州市高新区金猫路9号B幢

丁经理

13584892482

13584892482

135848924828

【阿里云】业务多活容灾解决方案

发布者:极豹云发布时间:2022-05-19访问量:336
多活容灾是在阿里巴巴电商业务环境演进出来的新一代容灾解决方案,其包含同城多活容灾场景和异地多活容灾场景。该方案可以将业务恢复和故障恢复解耦,有基于灵活的规则调度、跨域跨云管控、数据保护等能力,保障故障场景下的业务快速恢复,助力企业的容灾稳定性建设。


方案架构


异地多活业务架构
异地多活从业务视角来看是通过对业务做自顶向下的流量隔离来实现的,按照某一个分流维度对业务流量进行划分,并路由到不同的地域。每个单元内的业务架构分为接入层、服务层、数据层。

可以解决的问题
流量管理难度高
数据同步策略复杂
容灾切换数据质量保障难
多数据中心统一管控难度大

方案优势
业务即容灾:各个数据中心既是业务体系也是容灾系统
业务连续性保障:可实现分钟级的容灾切换
业务高速发展支撑:各个数据中心均可读写,具备水平扩展能力以及跨地域的快速扩建能力
流量有效隔离:各个数据中心承载的流量大小可灵活调配
成本有效控制:有效分摊各个数据中心成本



同城多活业务架构
同城多活基于阿里云现有成熟的云产品容灾能力,为中小企业构建全站跨可用区容灾能力,实现机房故障分钟级切换。主要覆盖包括流量路由,接入层,应用层,中间件,数据库,大数据等绝大部分技术场景。

可以解决的问题
单可用区部署,面对机房级故障只能消极被动等待
多可用区部署,微服务、MQ等流量无法从故障可用区逃逸
多可用区部署,微服务调用由于跨机房网络延迟造成性能问题
不支持灰度发布,业务创新不灵活

方案优势
建设难度低:低成本,易实施,周期短
多年积累:阿里巴巴多年容灾架构经验积累,方案成熟、稳定、可靠
业务级容灾:全站跨可用区容灾,故障场景业务分钟级恢复
流量封闭:微服务调用在机房内封闭,避免跨机房调用RT增大
业务高速发展支撑:多中心在线,可搭建灰度发布流程,使创新更灵活



数据库 UNIT 类型多活架构
每个单元部署独立的数据库系统,单元之间通过数据传输服务进行数据【双向】实时同步,保持每个单元都有全量数据,每个单元均可进行读写操作,读写流量会根据业务定制的分流策略进行单元写保护,这种同步策略用于支持服务层的单元化服务类型,是多活场景的核心同步策略。

架构特点
流量管理难度高各单元内部署独立 RDS、PolarDB-X 以支持您的在线业务系统。阿里云 RDS、PolarDB-X 实现了与多活管控系统的无缝对接,实现基于中心的一键建单元能力
各单元数据库为上层业务提供读写服务,每个单元保存全量业务数据,主要用于支撑单元化服务
通过数据传输服务的双向同步功能实现 RDS、PolarDB-X 的跨云同步。解决多活场景跨地域(数百公里~数千公里)数据同步的压缩、高效传输、数据防循环等

技术难题
实时向上层多活管控系统上报数据同步状态,实施单元间流量切换时的数据保护策略
单元内通过数据传输服务实现 RDS、PolarDB-X 到 ADB 的数据同步,实现单元内 AP 业务、TP 业务均可多活



数据库 COPY 类型多活架构
每个单元部署独立的数据库系统,单元之间通过数据传输服务进行数据逻辑单向实时同步,保持每个单元都有全量数据,中心单元可进行读写,非中心单元只提供读服务。这种同步策略用于支持中心化服务和普通服务,中心化服务路由回中心执行,普通服务可在单元内进行读。

架构特点
各单元内同样部署独立 RDS、PolarDB-X 以支持在线业务系统
中心单元为上层业务提供读写服务,其他单元提供只读服务,每个单元保存全量业务数据,主要用于支撑中心化服务和普通服务
通过数据传输服务的单向同步功能实现 RDS、PolarDB-X 的跨云同步
实时向上层管控系统上报数据同步状态,实施单元间流量切换时的数据保护策略
单元内通过数据传输服务实现RDS、PolarDB-X到ADB的数据同步,实现单元内AP业务、TP业务均可多活(单元只读能力)



数据库 TP 业务多活架构
OLTP(On-Line Transaction Processing)业务通常流量较大,但查询逻辑简单,对访问延迟比较敏感,同时有事务要求。

可以解决的问题
多活流量控制
多活数据同步
多活配置
多活场景运维
多活容灾切换

方案优势
基于此方案可以轻松解决多活在基础设施方面的各类问题,从而让客户更加专注于设计业务的分流策略



数据库 AP 业务多活架构
OLAP(On-Line Analytical Processing)业务通常流量较小,数据时效性要求低,但查询逻辑复杂。针对 AP 业务的多活实现会复用 TP 业务多活中的数据同步能力,是 TP 业务多活能力的延伸。

可以解决的问题
多活流量控制
多活数据同步
多活配置
多活场景运维
多活容灾切换

方案特点
通常 AP 业务并不是独立存在的,会以 TP 业务的存储系统作为上游,将 TP 业务实时产生的增量数据批量或实时的同步到 AP 业务的存储系统 ADB 中,供 AP 业务进行复杂的查询



客户案例
联通智慧客服系统
联通智慧客服系统的接入中心、外呼中心、业务支撑等7个业务实现按地域多活分流。
实现多次容灾演练,对多个省份进行切流,秒级完成切换,数据0丢失。
客户部署了两单元,常态两个单元均承载业务流量,充分利用两单元的资源。

菜鸟乡村
借助于阿里云的同城多活解决方案,帮助菜鸟乡村实现了在较短的时间内业务同城容灾的目标,实现业务7*24小时不间断服务,即使单机房故障也能够分钟级恢复,最大程度保障业务的连续性。

方案优势
阿里巴巴多年沉淀
阿里巴巴从2012年开始实施异地多活,积累了超过300+业务、上万数据库实例的丰富实战经验。

业务连续性保障的基石
秉承“先恢复,再定位”的原则,多活在各种灾难场景下均具备快速恢复业务的能力,在数据保护的前提下让“业务恢复时间”和“故障恢复时间”解耦合,保障业务连续性。

业务高速发展的架构支撑
业务高速发展,受限于单地有限资源,也存在数据库瓶颈等问题。在多活水平拓展能力支撑下,业务具备其它机房或者其它地域快速扩建的特性,减少成本浪费。

创新技术的实验田
异地多活本质上是提供了自上而下的一种流量隔离能力,业务具备单元间隔离的能力,在最小隔离单元内,业务可灵活进行风险可控的技术演进,例如基础设施升级、新技术验证等。

使用流程

业务梳理
收集业务运转信息,梳理技术基础架构,划分不同容灾优先级业务。

多活分析
基于业务形态及容灾诉求,选取多活流量分区维度,确定业务改造范围。

应用改造
根据业务梳理结果进行适当的应用多活改造。

实施演练
遵照可灰度、可观测、可回滚的原则,逐步放量进行容灾演练。


推荐产品

AHAS
应用高可用服务 AHAS 是专注于提高应用及业务高可用的工具平台,可以快速低成本的全面提升业务稳定性和韧性。

EDAS
企业级分布式应用服务 EDAS 提供应用开发、部署、监测、运维等全栈式解决方案。

RocketMQ
消息队列 RocketMQ 是一款具备低延迟、高并发、高可用、高可靠的分布式消息中间件。

PolarDB-X
PolarDB-X 是阿里巴巴集团自主研发的分布式数据库中间件产品,专注于解决单机关系型数据库扩展性问题。

数据传输服务
数据传输服务支持关系型数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。

RDS MySQL
MySQL 是全球最受欢迎的开源数据库之一,广泛应用于各类应用场景。

OSS
对象存储 OSS 是海量、安全、低成本、高可靠的云存储服务,具有与平台无关 RESTful API,能从互联网任何位置访问。

PolarDB
PolarDB 是阿里巴巴自主研发的下一代云原生关系型数据库,让用户既享受到开源的灵活性与价格,又享受到商业数据库的高性能和安全性。

ACK
容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。