核心创新
轻量级知识超图构建
采用大型语言模型驱动的n元关系抽取构建知识超图,在保持较低成本的同时实现更丰富的语义关系表达。构建效率达每千令牌5.69秒/2.81美元,生成包含120,499个节点和98,073条边的语义丰富图谱。
多轮智能检索流程
建立"思考-检索-再思考-生成"的多轮交互循环,支持智能体自适应查询和优化知识路径。通过实体检索和直接超边检索的双路径融合,结合互逆排序聚合机制提升相关知识获取概率。
端到端强化学习优化
采用组相对策略优化(GRPO)进行端到端强化学习,整合格式一致性、相关性和答案正确性的多维度奖励机制。仅对结构有效推理轨迹中嵌入的答案进行奖励,确保优化效果。
关键性能
基准测试结果
在六大问答数据集(2WikiMultiHopQA、HotpotQA等)上的评估显示:
- 使用Qwen2.5-7B模型达到57.82平均F1值
- 显著超越所有基线方法(标准RAG:15.89,GraphRAG:24.87)
- 更大基础模型可进一步放大性能优势
效率表现
- 查询响应时间:7.0秒/查询
- 生成成本:0美元/查询
- 交互轮次:平均2.3-2.5轮
- 内容长度:每轮交换约1200-1500令牌
生成质量
在七个维度评估中全面领先:
- 正确性:86.9
- 相关性:95.2
- 逻辑连贯性:88.5
- 同时保持优异的事实性和多样性
技术特性
泛化能力
在分布外设置下的交叉验证显示,O.O.D./I.I.D.比率常高于85%,展现强大的领域泛化性能。
理论保证
信息理论分析表明:
- 图结构知识提供更高的信息密度
- 多轮交互实现动态聚焦高影响图区域
- 端到端优化降低输出熵和错误率
算法流程
- 知识超图提取:通过LLM抽取n元关系构建实体和超边集合
- 多轮智能推理:交替执行反思、查询、超图检索和合成
- GRPO优化:使用采样轨迹和奖励标准化更新RL策略
应用场景
适用于需要事实准确性和推理透明度的复杂知识密集型领域:
- 医疗健康AI:需要多跳推理和可追溯性
- 法律监管领域:要求精确接地答案和可解释推理
- 企业知识自动化:支持大规模文档库的动态查询