AWS云运维2025十大发布亮点
在AWS re:Invent 2025大会上,我们很高兴分享最新创新成果,旨在帮助组织在变革性AI时代蓬勃发展。今年最重要的云运维发布解决了客户当前面临的最紧迫挑战——从获得生成式AI工作负载的全面可视性,到显著加速事件解决,以及有效管理现代云环境中运营数据的指数级增长。
1. Amazon CloudWatch和AgentCore中的生成式AI可观测性
Amazon CloudWatch为生成式AI应用和智能体提供全面可观测性,提供AI技术栈中延迟、令牌使用和错误的内置洞察。此新功能与Amazon Bedrock AgentCore无缝协作,并兼容LangChain、LangGraph和CrewAI等开源智能体框架。您可以监控模型调用、端到端追踪智能体工作流,并快速识别性能瓶颈——所有这些都无需编写自定义检测代码。
[图1] Amazon CloudWatch生成式AI仪表板
[图2] 智能体管理视图
2. Amazon CloudWatch应用地图现支持未检测服务发现
Amazon CloudWatch应用信号的应用地图现在无需检测即可自动发现和可视化您的应用拓扑,为您提供服务依赖关系和关系的即时可视性。此增强功能建立在9月份应用地图正式发布的基础上,增加了智能自动分组功能,可根据服务关系组织服务,并在地图视图中直接提供上下文操作洞察。
[图3] CloudWatch应用地图
3. Amazon CloudWatch调查现支持事件报告生成和5Why分析
AI驱动的运维能力帮助您更快解决事件、减少手动工作,并使各种经验水平的操作员能够排查复杂的分布式系统故障。6月正式发布的CloudWatch调查代表了操作智能的重大飞跃。此功能利用生成式AI自动化复杂的根本原因分析,并为面临关键事件的DevOps团队提供引导式故障排除体验。在此基础上,我们10月的发布引入了交互式事件报告生成功能,从根本上改变了组织应对操作挑战的方式——使团队能够从被动的紧急响应转向系统的、知识驱动的问题解决和持续改进。
我们还引入了集成的AI驱动"5Why"分析工作流,实施了AWS团队内部使用的精确系统方法。借鉴AWS通过错误纠正方法积累的二十年操作纪律——这是我们内部完善的记录事件、识别系统问题和防止复发的相同框架——CloudWatch的事件报告功能现在将这些机构知识封装在易用的服务中。单击一次即可激活跨遥测指标、部署事件、配置更改和调查活动的全面数据收集,生成详细的、上下文丰富的事件文档。与通用模板不同,每个报告都是根据您的特定操作数据、变更历史和架构上下文动态构建的——为利益相关者提供在您独特环境中增强弹性所需的可操作洞察。
[图4] Amazon CloudWatch调查事件报告
[图5] CloudWatch调查事件报告中的5Why分析
4. Amazon CloudWatch和应用信号MCP服务器
Amazon CloudWatch和CloudWatch应用信号的模型上下文协议服务器帮助桥接AI助手和智能体与您的可观测数据自然交互。这些MCP服务器提供对指标、日志、警报、追踪和服务健康数据的标准化访问,允许您构建自主操作工作流并将CloudWatch与AI驱动的开发工具集成。
5. Amazon CloudWatch应用信号新增GitHub Action和MCP服务器改进
CloudWatch应用信号现在通过新的GitHub Action直接集成到开发人员工作流中,在拉取请求和CI/CD流水线期间提供可观测性洞察。结合增强的MCP服务器能力,开发人员可以在不离开开发环境的情况下识别性能回归、监控服务健康状况和排查问题。
[图6] GitHub问题中的自动化根本原因分析
[图7] 自动GitHub拉取请求修复问题
我们引入了专门设计用于正面应对这些挑战的全面能力套件。通过重新构想操作数据的收集、集中、分析和可视化方式,这些创新提供了显著降低复杂性的智能聚合、呈现可操作洞察的强大分析,以及消除碎片化监控孤岛的集中可视性。
6. Amazon OpenSearch Service通过新PPL体验增强日志分析
Amazon OpenSearch Service对管道处理语言进行了重大增强,使日志分析更快、更直观。这些改进包括高级查询能力、复杂分析查询的更好性能,以及与CloudWatch日志的无缝集成,以便在您的AWS环境中进行统一日志分析。
7. Amazon CloudWatch真实用户监控增加对iOS和Android应用支持
Amazon CloudWatch现在将真实用户监控扩展到移动应用,提供iOS和Android设备上实际用户体验的可视性。监控性能指标、追踪用户旅程、识别客户端错误,并了解您的移动应用在不同设备、网络和地理位置的表现——所有这些都可在CloudWatch控制台中完成。
8. AWS CloudTrail增加数据事件聚合以简化安全监控
AWS CloudTrail现在为数据事件提供事件聚合和洞察,将高容量API活动合并为5分钟摘要,同时自动检测异常模式。这种双重能力在增强安全监控的同时减少了数据量和成本——帮助您识别异常,如意外的S3访问模式或DynamoDB限制,而无需手动分析。
9. Amazon CloudWatch推出跨账户和跨区域日志集中
CloudWatch日志集中将来自多个AWS账户和区域的日志数据整合到单个目标账户中——消除自定义聚合流水线并提供所有操作数据的统一视图。与AWS Organizations集成,您可以在整个组织、特定组织单元或选定账户范围内设定和扩展集中规则。日志事件自动使用@aws.account和@aws.region字段进行丰富,以保持源上下文和数据沿袭。
通过最少的设置时间,团队可以获得改进的操作效率、增强的安全态势和更快的事件解决。集中日志的第一个副本不会产生额外的摄取费用,使其成为多账户日志管理的高成本效益方法。
10. Amazon CloudWatch数据库洞察增加跨账户跨区域监控
CloudWatch数据库洞察现在支持跨账户和跨区域监控,使您能够集中查看整个AWS组织中的数据库性能。从单个监控账户监控Amazon RDS、Amazon Aurora和Amazon DynamoDB指标,将数据库性能与应用程序健康状态关联,并通过统一可观测性更快地排查问题。
结论
这些发布代表了云运维能力的重大飞跃。我们构建了直接应对AI时代运营独特挑战的变革性解决方案。从提供对AI应用前所未有的可视性的全面生成式AI可观测性,到显著加速故障排除的AI驱动事件解决,再到消除复杂性的智能数据管理——AWS创新帮助您运营得更快、更智能、更高效。
不要错过这个机会,亲身体验这些改变游戏规则的能力。参加我们在re:Invent的创新演讲和分会,观看现场演示,并访问云运维展台,探索这些创新如何改变您的运营。云运维的未来已经到来——比以往任何时候都更强大、更智能、更高效。