观测与评估AI代理工作流：Strands Agents SDK与Arize AX集成方案

生成式AI应用面临的挑战

基于代理工作流构建的AI应用与传统工作负载的关键区别在于其非确定性特性——相同输入可能产生不同输出。这是因为底层大语言模型（LLM）在生成每个token时都使用概率计算。这种固有不可预测性导致AI应用设计者需要关注行动校正计划、代理最优路径选择以及工具参数优化等问题。

组织在部署此类代理工作流时，需要建立可观测性系统来确保输出结果的正确性和可信度。主要挑战包括：

规模化下的不可预测行为：测试表现良好的代理在生产环境中可能因新语言变体或领域特定术语而产生无关或错误响应
隐藏的故障模式：代理可能输出看似合理但实际错误的结果，或跳过关键步骤未被察觉
非确定性路径选择：代理可能选择低效或错误的决策路径，导致用户体验下降
工具集成复杂性：API调用错误可能导致代理中断，如传递错误格式的参数
成本与性能波动：循环或冗长输出可能导致token成本激增和延迟峰值

Arize AX：全面的可观测性框架

Arize AX是企业级AI工程服务，帮助团队监控、评估和调试从开发到生产全周期的AI应用。基于Phoenix基础架构，AX增加了企业级功能包括：

追踪：通过OpenTelemetry实现LLM操作的全可见性，捕获模型调用、检索步骤和元数据
评估：基于LLM-as-a-judge的自动化质量监控，支持自定义评估器和清晰的成功指标
数据集：维护版本化数据集，支持边缘案例、回归测试和A/B测试
实验：运行受控测试以衡量提示或模型变更的影响
提示管理：像代码一样版本化、测试和部署提示，具有性能跟踪和渐进式发布能力

Strands Agents与Arize AX集成实践

Strands Agents是开源SDK，为构建和运行AI代理提供低代码框架。它统一了提示、工具、LLM交互和集成协议，支持某中心Bedrock托管模型和外部模型，内置RAG、MCP和A2A通信能力。

实施步骤

安装依赖：pip install strands opentelemetry-sdk arize-otel
配置可观测性工具：

1
2
3
4
5
6
7
8
9


from opentelemetry import trace
from opentelemetry.sdk.trace.export import BatchSpanProcessor
from arize.otel import register

register(
    space_id="your-arize-space-id",
    api_key="your-arize-api-key",
    project_name="strands-project"
)

构建餐厅助手代理：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


system_prompt = """您是"餐厅助手"，帮助客户在不同餐厅预订餐桌。您可以讨论菜单、创建新预订、获取现有预订详情或取消预订..."""

model = BedrockModel(
    model_id="us.anthropic.claude-3-7-sonnet-20250219-v1:0"
)

agent = Agent(
    model=model,
    system_prompt=system_prompt,
    tools=[retrieve, current_time, get_booking_details, create_booking, delete_booking]
)

测试与追踪生成

通过用户查询测试代理并生成追踪数据：

1
2
3
4
5
6
7


# 餐厅信息查询
results = agent("请问纽约有什么推荐餐厅？")
print(results)

# 预订功能测试
results = agent("今晚8点在Rice & Spice为2人预订，姓名Anna")
print(results)

分析与评估

在Arize仪表板中可查看和分析代理生成的追踪数据：

追踪级可视化：显示代理执行期间采取的具体路径
会话级洞察：通过session.id和user.id分组相关交互，识别对话中断点
自动化评估：使用LLM-as-a-judge模板自动标记工具调用正确性

Arize提供预构建评估模板覆盖代理过程的每个步骤：

代理工具调用
代理工具选择
代理参数提取
代理路径收敛
代理规划与反思

优化与监控

通过Arize的提示游乐场（集成开发环境）实验不同提示变更和模型选择，比较并行结果并在回归数据集上测试。优化后的提示和模型组合可保存到提示中心进行版本跟踪。

持续监控关键指标包括：

延迟：代理响应用户输入的时间
Token使用量：直接影响成本的token消耗数量
错误率：失败响应或工具调用的频率
工具使用效果：工具调用的有效性和频率

清理与结论

实验完成后可通过清理脚本移除创建的某中心资源：!sh cleanup.sh

该集成方案表明：可观测性、自动评估、实验和反馈循环以及主动警报对于生产AI系统不是可选项，而是创新与责任之间的关键区别。某中心Strands Agents与Arize AI的结合提供了全面解决方案：

Strands Agents提供构建和运行AI代理的模型驱动方法
Arize AI增加关键的可观测性层，具有追踪、评估和监控能力

这种合作为构建和部署生成式AI代理提供了强大解决方案，通过解决非确定性、验证正确性和实现持续监控等挑战，帮助组织创建可靠有效的AI应用。

AI代理工作流观测与评估技术解析

本文详细介绍了如何利用Strands Agents SDK和Arize AX平台实现AI代理工作流的全链路追踪与评估，包括工具调用监控、决策路径分析和自动化评估框架，帮助构建可信赖的AI应用系统。