Resolve and prevent operational incidents with AWS DevOps Agent and New Relic
本文由AWS的Nava Ajay Kanth Kota与New Relic的Muthuvelan Swaminathan(首席合作工程师)和Ruchika Bakolia(软件工程师)共同撰写。
现代分布式系统会产生海量的指标、追踪和日志,其本身极为复杂。在事件管理过程中,需要关联日志、比对配置并在不同工具间切换,这使得手动根本原因分析成为一个瓶颈,显著延长了平均检测和解决时间。与其手动筛选海量数据,站点可靠性工程师(SRE)和DevOps团队可以利用代理式AI来自动化和增强事件解决流程。
为应对这些挑战,New Relic与AWS合作,将New Relic模型上下文协议(MCP)服务器与AWS DevOps Agent集成,以访问遥测数据,并提供基于尖端人工智能的自动化根本原因分析和建议。AWS DevOps Agent是一个前沿代理,能够解决并主动预防事件,持续提升在AWS、多云和混合环境中运行的应用程序的可靠性与性能。
在本博客中,我们将探讨这两项服务的关键特性、配置方法,并通过一个示例展示运营团队如何关联遥测数据、预测系统异常并启动补救措施,从而显著加速平均解决时间(MTTR)。
New Relic AI MCP Server
New Relic MCP服务器是一个标准化网关,可将AWS DevOps Agent等外部AI代理连接到New Relic的可观测性数据和功能。它使自主代理能够查询实时数据并执行操作,无需定制API集成。
随着客户和合作伙伴构建自己的AI工具,他们不再需要维护定制的API集成。MCP使AI代理能够通过MCP客户端,无缝地与New Relic平台上的遥测数据进行交互,利用其能力并增强工作流。
AWS DevOps Agent
AWS DevOps Agent是一个前沿代理,能够解决并主动预防事件,持续改善可靠性与性能。AWS DevOps Agent像经验丰富的DevOps工程师一样调查事件并识别运营改进点:通过学习您的资源及其关系,与您的可观测性工具、操作手册、代码仓库以及CI/CD流水线协作,并关联所有这些来源中的遥测、代码和部署数据,以理解您的应用程序资源之间的关系。
为组织带来的关键益处
深入的观测性与AWS DevOps Agent功能的集成,旨在为SRE和DevOps工程师快速解决问题并在问题出现时预防事件。以下是一些益处:
- 自动化调查:AWS DevOps Agent与ServiceNow等票务和告警系统集成,可自动从事件工单启动调查,在您现有的工作流中加速事件响应,从而降低平均解决时间(MTTR)。
- 事件协调:您也可以使用交互式聊天来启动和指导调查。AWS DevOps Agent充当您运营团队的一员,直接在ServiceNow和Slack等协作工具中工作,分享发现并协调响应。
- 根本原因分析:AWS DevOps Agent与可观测性工具、代码仓库以及CI/CD流水线集成,关联和分析遥测、代码及部署数据,分享其探索的假设和观察。通过系统性的调查,AWS DevOps Agent能够识别源于系统变更、输入异常、资源限制、组件故障以及跨整个环境依赖问题的根本原因。
- 详细的缓解计划:一旦AWS DevOps Agent识别出根本原因,它会提供详细的缓解计划,其中包括解决事件、验证成功以及必要时回滚变更等操作。AWS DevOps Agent还提供可供其他前沿代理执行的指令,例如,可由Kiro自主代理实现的代码改进。
- 主动预防未来事件:AWS DevOps Agent分析历史事件中的模式,提供可操作的改进建议,以加强四个关键领域:可观测性、基础设施优化、部署流水线增强以及应用韧性。
初始设置
初始设置过程包括建立一个代理空间(Agent Space)并注册您现有的New Relic服务器。此过程不需要任何新的实现。
以下是创建AWS DevOps Agent代理空间并将其连接到New Relic MCP服务器(使用API密钥)的高级步骤。
在AWS DevOps Agent中设置代理空间
要创建代理空间,请导航至AWS管理控制台内的AWS DevOps Agent页面。代理空间为AWS DevOps Agent在访问特定AWS账户内的资源时建立了边界。要开始使用,请点击屏幕右上角的“创建代理空间”按钮,输入名称、描述和IAM角色。
(图片:AWS DevOps Agent创建代理空间)
创建New Relic关联
导航到代理空间中的“功能”选项卡。
(图片:在代理空间中导航到功能选项卡)
进入“遥测”部分,选择“添加”,然后选择“New Relic”并点击“下一步”。
(图片:在代理空间中将New Relic关联为遥测提供商)
成功将New Relic注册为数据源后,AWS DevOps Agent会自动生成一个Webhook URL。此URL随后用于接收警报通知并触发自动化调查。
(图片:AWS DevOps Agent Webhook URL和Bearer密钥)
AWS DevOps Agent webhook要求在HTTP头部包含Bearer令牌用于身份验证。这确保了只处理授权的请求。在New Relic中,将Amazon EventBridge设置为警报目的地。此配置将触发一个AWS Lambda函数,该函数将Bearer令牌添加到HTTP头部,并将警报负载发布到AWS DevOps Agent webhook URL。
用例演练:零售链 - 购物车服务高延迟解决
此用例展示了AWS DevOps Agent与New Relic MCP服务器的集成如何赋能SRE和DevOps团队,挖掘数据中未开发的洞察力,以降低MTTR并推动运营卓越。
考虑以下场景:当在线精品零售店应用的购物车服务P95延迟持续超过500毫秒达2分钟以上时,AWS DevOps Agent会收到告警。这次延迟峰值非常严重,远超正常的5毫秒阈值,影响了客户的购买能力。在典型场景中,运营团队需要花费最初的15-30分钟手动检查依赖服务、告警仪表板和日志。通过将New Relic可观测性平台与AWS DevOps Agent配置为自动关联遥测数据并更快地发现根本原因,可以显著减少这种手动工作。
为了自动补救此问题,在线精品应用程序的微服务配置了New Relic的APM代理,这些代理收集相关指标并发送到New Relic。当延迟超过预定义阈值时,会在New Relic内触发警报条件。触发的警报会向EventBridge发送通知,EventBridge随后执行Lambda函数。Lambda将传入的负载转换为所需的AWS DevOps Agent负载模板。然后,它在将消息发送到AWS DevOps Agent webhook端点之前,生成HMAC签名以验证消息的完整性和真实性。
(图片:New Relic中的警报策略通知)
AWS DevOps Agent webhook触发代理开始自动化调查。
(图片:AWS DevOps Agent事件响应页面)
AWS DevOps Agent首先查询New Relic MCP以获取购物车服务GUID的遥测数据。随后,AWS DevOps Agent向New Relic MCP发出第二次请求,以制定调查计划,其中包括相关实体列表、其关键指标以及这些依赖项的任何关联变更事件。
(图片:AWS DevOps Agent与New Relic MCP交互以列出实体和相关的变更事件)
接下来,使用New Relic MCP执行数据收集任务,遵循调查计划。
(图片:AWS DevOps Agent与New Relic MCP交互以探索和分析追踪)
(图片:AWS DevOps Agent与New Relic MCP交互以探索和分析日志与指标)
继续分析,代理利用New Relic的MCP检查实体日志、黄金指标和追踪,最终识别出延迟峰值的根本原因。
(图片:AWS DevOps Agent根本原因分析)
您可以查看AWS DevOps Agent的发现和建议的根本原因。站点可靠性工程师(SRE)可以在聊天面板中与AWS DevOps Agent(侧面板)交互,以澄清正在进行的调查步骤,从而实现更有效的监控和故障排除。
(图片:AWS DevOps Agent聊天界面)
您可以查看AWS DevOps Agent的发现和建议的根本原因。如有必要,SRE随后执行相应的缓解计划。
结论
通过将New Relic MCP服务器与AWS DevOps Agent集成,组织可以在问题出现时快速解决,并主动预防未来事件。这种协作降低了平均解决时间(MTTR),并将SRE和DevOps团队从耗时的手动调查中解放出来,加速了事件响应。它能确保快速修复技术中断,以最大限度地减少对业务的影响。最终,AWS DevOps Agent作为新的前沿代理,与New Relic One可观测性平台协同工作,共同推动运营卓越。
关于 New Relic
New Relic智能可观测性平台帮助企业消除数字体验中的中断。New Relic是一个由AI增强的平台,它统一并配对遥测数据,为您整个数字资产提供清晰视图,实现主动和预测性问题解决。这就是为什么全球各地的企业选择运行在New Relic之上,以推动创新、提高可靠性并提供卓越的客户体验,从而促进增长。
作者
- Muthuvelan Swaminathan 是New Relic合作组织的一名首席合作架构师,负责与领先的云提供商和战略合作伙伴构建技术集成。通过合作伙伴赋能、解决方案工程和生态系统协调,Muthuvelan帮助推动New Relic的产品创新,确保企业为其客户消除数字体验中的中断。
- Ruchika Bakolia 是New Relic的一名软件工程师。她对AI与云技术的交叉领域充满热情,在AWS上构建和集成解决方案方面拥有丰富经验。Ruchika喜欢旅行、阅读和探索陶艺等创造性追求,始终寻求新的体验和挑战。
- Nava Ajay Kanth Kota 是AWS的一名高级合作解决方案架构师,目前服务于亚马逊合作组织(APO)团队,与ISV合作伙伴紧密合作。Ajay在企业计算基础设施领域拥有超过23年的经验,在云架构、存储、备份和云解决方案方面具有深厚的专业知识。在加入AWS之前,他领导过存储、备份和云团队,负责在这些领域开发托管服务产品。
标签:AI/ML, DevOps, 可观测性