摘要
电信网络中的根因分析(RCA)是关键任务,但其复杂的图推理需求与真实基准的稀缺性对人工智能(AI)构成严峻挑战。TN-AutoRCA提出两阶段解决方案:1)构建首个贴近真实场景的告警RCA基准,覆盖多层级网络拓扑与动态故障传播;2)设计智能体驱动框架,通过反馈循环实现模型自主优化,显著降低人工干预需求。实验表明,该框架在准确率上较传统方法提升32%,同时具备持续适应网络演化的能力。
技术架构
-
基准构建
- 动态图生成器:模拟设备、链路、服务间的依赖关系,注入21类典型故障模式(如硬件失效、配置错误)。
- 告警合成引擎:基于时间序列传播模型生成带噪声的多维告警流,涵盖延迟、丢失、误报等真实场景扰动。
-
智能体框架
- 推理模块:集成图神经网络(GNN)与因果发现算法,构建故障传播图。
- 优化代理:采用强化学习策略,根据运维反馈调整GNN注意力权重与因果阈值。
- 知识库:存储历史案例的结构化表示,支持基于相似度的快速检索与迁移学习。
-
自改进机制
- 通过在线学习实时更新基准库,扩展故障模式覆盖范围。
- 利用对抗生成网络(GAN)合成罕见故障场景,增强模型鲁棒性。
性能验证
在3个跨国运营商数据集上测试:
- 准确性:F1-score达0.87,较基线方法提升19-41%。
- 效率:平均分析耗时从小时级缩短至8分钟,满足实时性要求。