通过韧性建模与分析提升服务可靠性

本文章翻译自 Trustworthy Computing 的博客“Improve the reliability of your service with resilience modeling & analysis”（2013年5月31日发布）。

之前（英文）我们讨论了云的复杂性，涵盖了故障发生的概念以及在故障实际发生时最小化对客户影响的预先规划的重要性。微软今天发布了新的白皮书《为云服务设计韧性》，其中包含了韧性建模的方法、详细指南以及云服务团队使用的模板示例，旨在简化实施并确保一致性。

该白皮书介绍了韧性建模与分析（RMA），基于行业标准技术故障模式影响分析（FMEA），但更侧重于故障的检测、缓解和恢复工作，因为这些是缩短云服务恢复时间（TTR）的关键因素。

RMA 过程包括以下四个主要阶段：

前期准备：这是过程中最重要的阶段，认识到此阶段创建的成果质量将显著影响最终输出质量。此阶段进行两项任务：首先，团队创建服务的整体逻辑图（概览图），可视化所有组件、数据源和数据流；其次，使用逻辑图识别所有可能发生故障的组件（故障点），了解这些组件之间的相互作用（关联）以及每个组件在生态系统中的行为。

检测：此步骤检查每个组件的所有潜在故障模式，例如服务的基础设施元素及其之间的各种依赖关系。目的是识别系统中可能发生故障的位置（点）和故障情况（模式）。提供了故障类别检查表以辅助工作。

评估：此阶段分析并记录检测阶段识别的故障可能产生的影响。RMA 工作簿提供下拉选项，便于指定特定故障的影响和可能性。列包括故障影响、受影响的用户、故障检测所需时间、故障恢复时间以及故障发生的可能性等。此阶段创建所有故障类型的风险值列表，基于风险值确定技术投资的优先级。

实施：最后阶段对 RMA 工作表中识别的项目执行操作，进行提升服务可靠性所需的投资。根据评估阶段确定的故障排名，重点关注影响非常大的区域的改进。

如果您计划设计和部署大规模云服务，请下载此白皮书，详细了解韧性建模与分析（RMA），并考虑实施此过程以提升在线服务的可靠性。

David Bills，可信计算，可靠性首席策略师