追寻根本原因是条歧路：与David Blank-Edelman探讨软件架构与可靠性工程

Tue, 30 Dec 2025 08:12:49 +0800

关键要点

可靠性是架构的一种涌现属性，可以包含对客户重要的任何属性，如可用性、延迟、吞吐量、持久性或信息新鲜度。因此，它超越了单个用例。
不存在所谓的事故单一根本原因。失败有多种原因，其中一些是社会技术性的。有时为了理解事故，必须了解事故发生前某物是如何工作的。
架构师和软件可靠性工程师应建立基于对系统实际工作方式好奇心的协作关系。有关失败的知识应与架构师和设计师共享，这样他们不仅能了解系统在实践中的运行方式，还能利用这些信息在未来设计出更好的系统。
事后审查应首先关注“什么”和“如何”，然后再问“为什么”。过早关注“为什么”通常会遗漏重要信息。
复杂系统几乎总是处于失败的边缘。

文稿

Michael Stiefel：欢迎来到架构师播客，在这里我们讨论成为架构师意味着什么，以及架构师实际上如何工作。今天，我们将讨论一些对架构师非常重要但通常没有明确讨论的话题。我们已经在这个播客上多次谈到了可靠性和为失败而设计，但我们还没有讨论过如何让我们的系统设计更加健壮，而不仅仅是在失败后进行修复。

负责任AI快速部署实践指南

Thu, 09 Oct 2025 06:05:14 +0800

负责任AI快速部署实践指南

在软件工程中，发布日很少因为缺少单元测试而失败；但在机器学习领域，情况并非如此。远离训练数据的输入、对抗性提示、偏离人类目标的代理，或者声称与其实际不符的上游工件，都可能导致发布失败。问题不在于"能否预防所有故障"，而在于"能否限制故障范围、快速检测并实现可预测的恢复"。

站点可靠性工程 on 办公AI智能小助手

追寻根本原因是条歧路：与David Blank-Edelman探讨软件架构与可靠性工程

关键要点

文稿

负责任AI快速部署实践指南

负责任AI快速部署实践指南