AI原生可靠性工程:Vibe Loop如何改变生产系统运维

本文探讨了AI原生可靠性工程Vibe Loop,通过AI代理实现从代码编写到生产观测的闭环反馈,提升系统可靠性和运维效率,涵盖OpenTelemetry、MCP协议等关键技术。

Vibe Loop:面向现实世界的AI原生可靠性工程

自近十年前谷歌的《站点可靠性工程》一书将正常运行时间重新定义为工程学科以来,我们已经取得了长足的进步。可观测性和自动化使得构建和运行复杂的软件系统更加合理和可靠。然而,它们并没有改变故障排除生产系统的根本反应性质。AI代理可能会改变这个等式。

从报告到行动

生产系统应提供四项基本服务以确保可靠性和性能:

  1. 检测问题
  2. 解释问题
  3. 帮助修复问题
  4. 学习并改进

当今的可观测性解决方案很好地执行了前两个功能。人工智能可以通过创建我们所谓的“Vibe Loop”来帮助我们完成其余部分。该术语借鉴了“氛围编码”(vibe coding),这是一种采用临时方法编写代码的编程技术。大型语言模型通过让开发人员发出自然语言命令而机器完成大部分繁重工作,从而极大地推动了氛围编码。

Vibe Loop将相同的原则扩展到可观测性。这是一个紧密的、AI原生的反馈循环,介于编写代码、在生产中观察代码、从中学习并快速改进之间。Vibe Loop使用代理网络来自动化特定的、可重复的任务,并建议甚至完成补救措施。而且它会随着时间的推移变得更好。

在这种与生产系统协作的新模式中,检测与代码一起生成,以帮助人类操作员更好地理解系统的行为。AI自动发现并解决基本的现场问题。随着AI将信号与噪声分离,遥测变得自适应。事后分析是促进持续改进的学习事件。工程师花在翻阅日志上的时间更少,而花在提高系统性能上的时间更多。

实施Vibe Loop的三个步骤

步骤1:提示AI代码生成工具进行检测

AI副驾驶和用于结构化、供应商无关检测的OpenTelemetry标准正在改变站点可靠性工程师(SRE)与可观测性工具的交互方式。这种组合让他们可以创建如下提示:

  • “编写此处理程序,并为每个主要步骤包含OpenTelemetry跨度。”
  • “跟踪重试并记录外部API状态代码。”
  • “统计缓存命中和数据库回退。”

因此,可观测性成为检测和解决问题的工具,并在过程中解释其工作。

步骤2:添加上下文

AI工具需要的不只是原始遥测数据。Anthropic开发的开源模型上下文协议(MCP)作为一种标准且一致的方式,让应用程序与AI模型共享信息,正迅速获得关注。它通过为模型提供结构化的背景信息来促进长或复杂的交互,充当代码、基础设施和可观测性之间的粘合剂。

SRE可以使用MCP来发现服务、监控变更、识别警报来源,并搜索遥测历史以了解类似故障以前是如何处理的。MCP为AI提供了上下文来回答开放式问题,例如“为什么延迟增加了?”或“这种故障模式以前发生过吗?”答案可以包括关于过去事件的推理、显示请求或工作流完整路径的相关跨度以及配置变更。工程师可能需要花费数小时来拼凑事件的上下文。生成式AI和MCP使这个过程瞬间完成。AI代理现在可以跨多个工具收集上下文并对其所学进行推理。

步骤3:闭合Vibe Loop

AI不仅可以帮助您更好地理解生产环境,还可以提醒您注意盲点并提供纠正措施。它可以注意到您未捕获的信息,并提出为您完成该任务或添加缺失的属性。它甚至可以识别效率低下的来源并提供采取纠正措施。

在Vibe Loop中,可观测性从救火和记录行动转变为持续发现、诊断和修复。AI利用类似过去事件的上下文调查事件,发现潜在的根本原因,提出解决方案,并帮助SRE现场实施它们。诊断和解决的质量随着每个事件而提高。工程从追逐跟踪转变为有意图地管理遥测。开发人员可以在不创建工单和排队等待的情况下解决更多问题。可观测性从反应性演变为适应性。

Vibe Loop不会取代工程师,而是使普通工程师能够达到专家水平,并让专家扩大其范围和影响力。有史以来第一次,我们的工具正在赶上我们运行的系统的复杂性。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计