新方法改进基于知识图谱的问答系统
研究背景
问答系统是自然语言处理中的热门任务,模型需要回答如"蒙娜丽莎在哪个城市?“之类的问题。传统方法使用知识图谱存储结构化事实数据,但需要独立的语义解析和实体链接模型,训练和维护成本高昂。
技术突破
在EMNLP 2021会议上,我们提出两项基于可微分知识图谱的端到端问答扩展:
端到端实体链接与问答
- 将实体链接集成到问答模型中,替代需要人工标注的传统方法
- 采用跨度检测组件识别句子中可能指代实体的部分
- 对每个识别出的跨度,模型对知识图谱中所有可能实体进行排序
- 实验显示与使用人工标注的基线模型性能差距仅7%和5%
支持多实体查询的扩展方法
- 引入交集操作处理涉及多个实体的复杂查询
- 对问题中的每个实体独立进行路径推理
- 通过向量元素最小值操作实现交集计算
- 在多实体查询任务上性能提升14%-19%
技术架构
- 编码器-解码器结构:采用注意力机制处理输入问题
- 实体解析组件:联合执行跨度检测和实体链接
- 可微分知识图谱:将图谱表示为张量,查询作为可微数学操作
- 交集操作模块:处理多实体查询的交叉验证
实验成果
在两个英文问答数据集上的实验表明:
- 实体链接模型接近人工标注的基线性能
- 交集操作显著提升多实体查询准确率
- 端到端训练减少模型维护成本
未来方向
计划进一步改进实体链接性能、整合实体链接与交集操作,并支持更复杂的操作如最大值/最小值计算和计数功能。
相关论文已发表于EMNLP 2021会议,具体实现代码和数据集可参考官方发布资源。