通过观察分布式系统在基于阿里云受控的故障注入测试中的行为变化发掘系统、流程、工具的弱点,并针对性的改进,从而提高系统可靠性,建立系统抵御失控条件的能力和信心。
方案架构
云原生应用混沌工程解决方案
遵循混沌工程实验原理并融合了阿里巴巴内部实践,提供了丰富故障场景实现,帮助分布式系统提升容错性和可恢复性。
可以解决的问题
有效验证系统架构的容错能力
提高故障的应急效率
提早暴露线上问题,降低故障复发率
方案优势
简化故障和瓶颈排查
提高系统健壮性
提升客户体验
方案优势
提升系统上线效率
在新系统或新功能升级上线前,对整个系统的稳定性和健壮性进行流量访问检验,全部公网流量模拟真实场景,防止系统上线后遇到预期外异常。
完善使用体验
演练应用分级是否合理,业务依赖是否合理,有无降级预案,服务降级后的处理效果和应用体验。
应用演练
监控覆盖率、预案有效性、参数合理性、故障处理流程、人员应急能力。
内部实践
阿里集团
阿里集团通过不定期的大规模演练,极大的提高了整个系统的安全等级,及时发现系统中存在的风险点,锻炼运维团队的应急响应能力,保障全集团业务的安全稳定运行。
推荐产品
应用高可用AHAS
AHAS是专注于提高应用及业务高可用的工具平台,提供应用架构探测感知,故障注入式高可用能力评测和流控降级高可用防护三大核心能力。
应用监控ARMS
ARMS是一款应用性能管理产品,能帮助你实现全栈式的性能监控和端到端的全链路追踪诊断, 让应用运维从未如此轻松高效。
性能测试PTS
PTS是面向所有技术背景人员的云化测试工具,以互联网化的交互,提供性能测试、API调试和监测等多种能力。