新方法改进基于知识图谱的问答系统
传统方法的局限
基于知识图谱的问答系统传统采用流水线模型:首先通过语义解析模型生成查询指令,再通过实体解析模型将问题中的实体链接到知识图谱中的ID。这种方法需要独立训练和维护多个模型,且依赖耗时昂贵的人工标注。
端到端问答创新
集成实体解析的可微分知识图谱
在首篇论文中,我们提出将实体解析整合到端到端问答模型中。通过引入跨度检测组件,系统能自动识别问题中可能指向实体的文本片段(如"汤姆·汉克斯"),并对知识图谱中所有可能实体进行评分排序。实验表明,该方法在无需人工标注的情况下,性能与使用人工标注的基线模型仅相差5%-7%。
支持多实体查询的交集操作
第二篇论文针对含多实体的问题(如"娜塔莉·波特曼在《星球大战》中扮演了谁?")提出交集操作解决方案。模型从每个实体独立出发获取中间答案,通过元素级最小值的向量运算实现交集操作,最终返回所有中间答案共有的实体。实验显示该方法在多实体查询上的性能较基线提升14%-19%。
技术实现细节
- 可微分知识图谱:将知识图谱表示为张量,查询作为可微分数学运算
- 联合学习机制:实体解析与问答推理在统一模型中同步训练
- 交集运算:采用向量元素最小值操作实现多路径结果交集
未来方向
将继续改进实体解析性能至媲美人工标注水平,整合实体解析与交集操作,并扩展支持最大值/最小值计算及计数等复杂运算。
相关研究成果已发表于EMNLP 2021会议