利用Datadog MCP服务器与AWS DevOps Agent(预览版)加速自主化事故解决

本文介绍了如何通过集成Datadog MCP服务器与AWS DevOps Agent,自动关联来自AWS服务和Datadog的监控数据、日志和追踪信息,将事故的平均解决时间从数小时缩短至数分钟,从而实现自主化的事故调查与解决。

利用 Datadog MCP 服务器与 AWS DevOps Agent(预览版)加速自主化事故解决

值班工程师通常需要花费数小时在多个可观测性工具、日志和监控系统中手动调查事故。这一过程延误了事故解决,并影响了业务运营,尤其是在团队需要关联跨不同监控平台的数据时。AWS DevOps Agent(预览版)是一种前沿代理,能够解决并主动预防事故,持续提升 AWS、多云和混合环境中应用程序的可靠性与性能。前沿代理代表了一类新型 AI 代理,它们自主、大规模可扩展,并且能在无需持续干预的情况下工作数小时或数天。AWS DevOps Agent 提供与 Datadog 模型上下文协议 (Model Context Protocol, MCP) 服务器的内置集成,使您能够通过直接连接到 Datadog 的监控解决方案,获取数据中尚未开发的洞察。DevOps Agent 会映射您的应用程序资源,并关联遥测数据、代码和部署数据,以降低平均解决时间 (MTTR) 并实现卓越运营。

您可以使用此集成来收集和分析 Datadog 的日志、指标和追踪信息,并将这些数据与 AWS 服务进行关联。当事故发生时,AWS DevOps Agent 会识别问题并提供缓解计划,工程师随后可以实施这些计划。工程师可以通过中央仪表板监控自动化调查,并随时通过交互式聊天与代理互动。利用此集成,工程师能够将平均解决时间 (MTTR) 从数小时缩短至数分钟,同时保持对自动化操作的完全可见性。

Datadog MCP 和 AWS DevOps Agent 如何协同工作

Datadog MCP 服务器与 AWS DevOps Agent 之间的集成将您的监控数据与自动化事故响应连接起来。Datadog MCP 服务器充当您监控数据的中央访问点。它通过标准化协议安全地连接到 Datadog,允许 AWS DevOps Agent 在调查期间查询日志、指标和追踪信息。该服务使用 OAuth 2.0 身份验证并支持多个区域,以帮助满足数据主权要求。

AWS DevOps Agent 在学习您的资源和关系的同时,关联来自 AWS 服务和 Datadog 的数据。它分析 Amazon CloudWatch 日志和指标、部署数据、代码以及 Datadog 的遥测数据,以构建事故的完整视图。这种组合视图比单独检查每个数据源能更快地识别根本原因。安全考量被内置于每一次交互中。AWS DevOps Agent 与 Datadog MCP 服务器之间的所有交互都使用身份验证、授权、加密和日志记录以供审计。虽然该服务目前仅在 us-east-1 区域运行,但它可以监控和分析部署在全球任何 AWS 区域的客户账户中的应用程序。

设置和使用带有 Datadog 的 AWS DevOps Agent

在本节中,我们将指导您完成在 AWS DevOps Agent 账户中启用 Datadog MCP 服务器并为其配置以进行事故解决所需的步骤。

先决条件

对于本演练,您应具备以下内容的访问权限和了解:

  • 一个 AWS 账户,并拥有创建 AWS IAM(身份和访问管理)角色的权限:
    • 代理空间角色 – 用于基本服务操作
    • 代理空间 Web 应用程序角色 – 用于使用代理空间 Web 应用程序功能
    • (可选)次要源账户角色,用于监控多个 AWS 账户。有关设置这些角色的详细信息,请参阅 DevOps Agent 用户指南。
  • 一个 Datadog 账户
  • 对 Datadog MCP 服务器(预览版)的访问权限

在 AWS DevOps Agent 控制台中设置 Datadog

在 AWS DevOps Agent 控制台中启动设置,连接您的 Datadog MCP 服务器。导航到 设置,选择 Datadog 集成 面板,然后选择“注册”。出现提示时输入您的 Datadog MCP 服务器详细信息(您可以在其文档中了解更多关于请求访问此服务器的信息)。AWS DevOps Agent 验证连接并显示确认消息。

图 1:在 AWS DevOps Agent 控制台中设置 Datadog MCP 服务器

创建 AWS DevOps Agent 代理空间

接下来,在您的主 AWS 账户中创建一个 代理空间。这需要一个 AWS IAM 角色,用于授予 AWS DevOps Agent 对您 AWS 资源的访问权限。创建代理空间后,将 Datadog MCP 服务器添加为遥测源,以启用全面的事故调查。

要创建您的代理空间,请首先在 us-east-1 区域访问 AWS DevOps Agent 控制台。选择“创建代理空间”按钮,并为您的空间提供一个有意义的名称和描述。提交表单后,您需要配置所需的 IAM 角色,这可以通过自动化创建过程或手动设置完成。

图 2:在代理空间中创建 AWS DevOps Agent

您的代理空间拓扑可以使用 AWS CloudFormation 堆栈AWS 标签 作为起点来识别您的应用程序组件。基本设置完成后,您可以通过添加用于多账户监控的 次要源账户,并配置与 SIM 工单系统流水线(GitFarm 包和 CloudFormation 堆栈所在位置)、Slack 以及(对于我们这个用例最重要的)带有 Datadog MCP 服务器的遥测 等服务的集成,来增强您的代理空间配置。

图 3:为 AWS DevOps Agent 调查添加额外的遥测源

从这里,我们可以启动代理空间 Web 应用程序以开始调查。

真实示例:解决 API Gateway 错误

让我们了解一下 AWS DevOps Agent 和 Datadog 如何协同工作以解决生产事故。在此场景中,Datadog 检测到 Amazon API Gateway 5XX 错误激增,影响了下游服务。

图 4:Datadog 中的示例 API Gateway 错误

使用 Datadog MCP 服务器和 AWS DevOps Agent 调查来自 API Gateway 的 5XX 错误事故

当警报触发时,AWS DevOps Agent 会自动分析 Datadog 指标和 API Gateway 日志。通过调查聊天界面,工程师指导 AWS DevOps Agent 检查 API Gateway 配置。该代理关联 API Gateway 和 AWS Lambda 执行日志,快速识别错误模式。

图 4:使用 AWS DevOps Agent 和 Datadog MCP 调查事故

解决和预防

AWS DevOps Agent 帮助识别 Lambda 和 Amazon DynamoDB 集成中潜在的配置错误,并实施即时修复。该代理将所有发现和操作记录在事故记录中,并由来自 Datadog 和 AWS 服务的遥测数据支持。解决后,AWS DevOps Agent 会生成详细的分析报告,其中包含防止类似事故的具体建议。团队可以通过 AWS DevOps Agent Web 应用程序中的 预防 功能来审查并实施这些建议。

图 5:AWS DevOps Agent 生成的调查摘要

清理

当您完成使用该集成时,可以通过以下步骤清理您的资源:

  • 从 AWS DevOps Agent 控制台中删除您的代理空间
  • 从您的设置中移除 Datadog MCP 服务器连接
  • 删除为代理空间创建的 IAM 角色
  • (可选)如果您创建了额外的源账户角色,也请将其移除

结论

Datadog MCP 服务器与 AWS DevOps Agent 之间的集成通过自动关联您监控工具中的数据,减少了事故解决时间。团队现在可以获得由 AI 驱动的调查,该调查能识别根本原因并提出修复建议,而无需在事故期间手动在 Datadog 和 AWS 仪表板之间切换。早期采用者报告其事故响应有显著改进。解决时间从数小时下降到数分钟,同时值班团队花费在收集数据上的时间更少。通过全面的数据关联,团队还看到了更一致的事故响应和改进的根本原因分析。要了解更多信息,请查看 AWS DevOps Agent 产品页面。

Datadog 是 AWS 专项合作伙伴和 AWS Marketplace 销售商,十多年来一直在构建与 AWS 服务的集成,积累了 100 多个 AWS 集成和 1000 多个内置集成。这项新的 AWS DevOps Agent 和 Datadog MCP 服务器集成建立在 Datadog 与 AWS 合作伙伴关系成功的坚实基础之上。如果您尚未使用 Datadog,可以通过 AWS Marketplace 开始为期 14 天的免费试用。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计