系统可靠性工程实践：从故障中构建韧性架构

系统可靠性：从被动应对到主动设计

当10月份的大规模AWS中断导致Signal、Snapchat、ChatGPT、Zoom、Lyft、Slack、Reddit、麦当劳、美联航甚至Duolingo等全球服务瘫痪时，这暴露了云优先运营的脆弱性。在当今云优先的世界中，任何系统都可能发生故障。随着企业将业务分布到全球云平台上，问题不再是"系统是否会故障"，而是"它们能多快恢复以及系统设计得有多智能"。

Elena Lazar是深刻理解这一现实的工程师之一，她是一位拥有超过20年经验的资深软件工程师，曾在法国、波兰和美国设计弹性架构、自动化CI/CD流水线并提升系统可观测性。作为电气电子工程师学会和美国科学促进会成员，Elena连接了应用工程与科学探究的世界。

工程实践访谈

Q. 根据New Relic的可观测性预测，高影响IT中断的中位成本已达到每小时200万美元，且持续上升。从您的角度看，为什么恢复成本如此昂贵？企业如何最小化这些损失？

A. 中断成本上升的主要原因是数字基础设施已深度互联且具有全球关键性。每个系统现在都依赖数十个其他系统，因此当像AWS或Azure这样的主要提供商宕机时，影响会立即波及各个行业。

恢复成本上升不仅因为直接停机时间，还因为中断几分钟内发生的交易损失和品牌损害。公司越全球化、自动化，维持本地化回退机制就越困难。

减少这些损失的唯一现实方法是设计可控故障：构建冗余架构、定期模拟中断、自动化根本原因检测，使恢复时间以秒而非小时计。

Q. 您在软件工程领域工作超过20年，从自由开发者到目前在广播和内容分发领域的大规模项目中的角色。您对分布式系统可靠性的理解在职业生涯不同阶段如何演变？

A. 20年前，真正的大规模分布式系统相对罕见，主要存在于大公司，因为构建任何可靠的系统都需要维护自己的物理基础设施；即使托管在数据中心，也必须由公司拥有和运营。当时，同时运行CRM和网站的单台企业服务器可能被视为"大规模基础设施"，可靠性主要意味着保持硬件存活和手动检查应用程序。

过去15年改变了一切。云计算和虚拟化引入了弹性和自动化，使冗余变得经济实惠。可靠性不仅成为反应性目标，更成为设计特性：按需扩展、自动故障转移和自校正的监控流水线。如果我们曾经从零开始编写监控脚本，现在我们拥有开箱即用的仪表板、容器编排和时间序列数据库。今天，可靠性不是工具集；它是系统架构的一部分，融入可扩展性、可用性和成本效益。

Q. 能否分享一个您故意设计系统以容忍组件故障的具体案例？您面临哪些权衡？如何解决？

A. 在当前工作中，我设计能够承受依赖服务故障的CI和CD流水线。流水线分析每个错误：有时重试，有时快速失败并提醒开发人员。

在过去项目中，我应用优雅降级原则：让Web或移动应用程序的部分功能暂时离线，而不破坏整个用户体验。这提高了稳定性，但增加了代码复杂性和运营成本。韧性总是伴随着这种权衡：更多逻辑、更多监控、更多基础设施开销，但当系统在其他系统宕机时保持运行，这是值得的。

Q. 在CI/CD流水线和基础设施自动化工作中，您使流水线能够承受依赖服务故障。哪些工具或实践被证明最有效？

A. 多年来，我们使用脚本以编程方式分析日志。为新场景扩展它们比手动调试花费更长时间。最近，我们开始尝试使用大型语言模型(LLM)完成此任务。

现在，当流水线失败时，其部分日志会馈送给经过训练的模型，以建议可能的根本原因。LLM的输出通过Slack或电子邮件直接发送给开发人员。它经常捕获简单问题、错误的依赖版本、失败的测试、过时的API，并节省数小时的支持时间。

我仍在推动更深入的LLM集成。讽刺的是，我有时在笔记本电脑上的Docker中运行轻量级AI模型，只是为了加速日志分析。这就是我们仍在用创造力弥合自动化差距的地方。

Q. 在银行、广播和电子商务项目工作中，哪些架构模式被证明在提高系统可靠性方面最有效？

A. 复制与负载平衡结合是被低估的英雄。例如，在AWS ELB中启用健康检查实际上实现了断路器：停止将流量路由到不健康节点，直到它们恢复。我们还依赖数据库复制；现代DBMS默认支持异步复制。

在一个银行项目中，集成外部系统使单体服务过载。我们将该功能分解为负载均衡器后面的可扩展微服务，这解决了问题，但也暴露了隐藏的依赖关系。一些内部工具失败仅仅因为没有文档记录。这一经验教会我一个普遍规则：无文档的基础设施是无声的可靠性杀手。

Q. 您在基础设施自动化和服务可靠性方面有丰富经验。如何决定监控哪些信号而不压倒团队或增加成本？

A. 今天，添加指标很容易，因为大多数框架都开箱即用。从日志解析到指标监控有明显的转变，因为指标稳定且结构化，而日志不断变化。尽管如此，详细日志对于理解中断背后的"原因"仍然不可或缺。

这是关于平衡：指标保持系统健康；日志解释其心理。

Q. 许多组织现在运行数百个微服务。以这种方式扩展系统时，您看到哪些陷阱，特别是在故障影响方面？

A. 资源开销是最大的隐藏成本，负载均衡器和缓存层可能消耗与核心服务本身一样多的计算能力。唯一的真正缓解方法是良好的架构。

故障传播是一个典型例子。当服务在没有心跳调用、断路器或延迟监控等保护措施的情况下通信时，一个故障可能迅速级联到整个系统。然而，过度设计保护会增加延迟和成本。

有时最简单的解决方案最有效：返回回退的"数据不可用"响应而不是错误，或使用智能重试逻辑。并非每个问题都需要相当通用但成本高昂的基于事件的异步架构解决方案，如Kafka集群。

管理增长的关键是透明度。将开发人员限制在孤立的"范围"内而不看到更大图景是我见过的最糟糕的反模式。现代基础设施即代码工具即使是大规模系统也可读、可复制，最重要的是可理解。

Q. 根据New Relic和Uptime Institute报告，中断可能使公司每小时损失数百万美元。当业务优先级通常关注短期交付时，您如何证明可靠性长期投资的合理性？

A. 我们生活在一个每个人都知道故障成本的时代。您不再需要过多争论。上升的故障率自动触发调查，数据不言自明。

例如，如果AOSP平台更新服务中的错误率由于旧的Android客户端而激增，我们会分析服务和分布式OS镜像。业务案例总是归结为：修复可靠性或失去用户。

即使对于代码仓库、文档、CI和CD流水线等内部工具，逻辑也类似。不可靠的基础设施延迟了面向客户的功能。挑战不是说服利益相关者，而是找到修复它的人员和时间。

Q. 根据您的经验，您会与今天构建弹性流水线的工程领导者分享哪些经验？

A. 故障不可避免，但混乱不是。造成混乱的是不明确的所有权和糟糕的沟通。一个简单的规则非常有帮助：让每个人都能访问完整代码库。当与明确的责任图结合时，即使只是一个结构良好的Slack工作区，它也能使团队协作而不是等待工单升级。透明度是迈向韧性的第一步。

Q. 您曾从事机器学习驱动的可观测性工作，并提到对用于自动修复的代理AI感兴趣。您对AI在未来五年如何改变可靠性工程有何愿景？

A. 机器学习驱动的可观测性已经存在，将日志馈送到AI模型中以在故障发生前预测它们。但真正的边界是自动修复：自我修复并产生有意义的事后报告的系统。

是的，存在惯性，因为企业害怕生产中的自主变更，但经济学会获胜。初创公司和动态组织已经在尝试使用代理AI提高可靠性。最终，它将成