实体链接技术突破:高效连接文本与知识库

本文介绍ReFinED模型在实体链接技术上的创新,通过描述评分和类型评分机制实现60倍速度提升,支持零样本链接,并利用知识库关系数据提升歧义消解准确率,适用于大规模知识库应用场景。

改进文本与知识库间的实体链接技术

实体链接(EL)是将文本中的实体提及自动关联到知识库(存储实体关系事实的数据库,如Wikidata)对应条目的过程。例如,在句子"英格兰赢得比赛"中,需要将"英格兰"链接到"英格兰足球队"而非"英格兰国家"的实体。

实体链接是自然语言处理(NLP)应用(如问答、信息提取和自然语言理解)的关键第一步,对连接非结构化文本与知识库至关重要。当前EL系统在标准数据集表现良好,但在实际应用中存在三大局限:计算密集型处理导致大规模处理成本高昂;多数系统仅支持特定知识库(如Wikipedia)且难以适配其他知识库;高效方法无法链接训练后新增实体(零样本EL任务)。

在NAACL 2022工业轨道中,我们提出新型EL系统ReFinED,解决上述所有问题。后续在主会议论文中进一步引入利用知识库附加信息的方法,提升模型准确率。ReFinED在标准EL数据集上以F1分数平均提升3.7点的成绩超越现有技术,速度提升60倍,且支持Wikidata等大规模知识库(实体量为Wikipedia的15倍)和零样本实体链接。该模型已在某机构内部成功部署于网络规模数据集的实体提取。

基于细粒度类型与描述的实体链接

实体链接的挑战在于实体提及常存在歧义,系统需有效利用上下文进行消解。现有EL系统使用深度学习方法将提及与知识库中的文本描述或细粒度实体类型匹配,这对零样本EL有利,因为新实体的描述信息具有训练见过的属性。但这类方法比非零样本模型计算成本高一个数量级。

ReFinED同样使用细粒度实体类型和描述执行EL,但采用简单的基于Transformer的编码器,在五个EL数据集上实现最优性能。模型通过单次前向传播完成文档内所有提及的检测、细粒度类型预测和实体消解,速度达到同类模型的60倍。其核心是通过描述评分和类型评分两个指标评估候选实体与输入的匹配度。

融合关系数据

当描述和类型信息无法消解候选实体时(如句子"克林顿出生于阿肯色州"中无法区分指代比尔·克林顿或希拉里·克林顿),我们提出利用知识库中与候选实体关联的附加事实数据。知识库事实编码实体间关系(如出生地、教育背景),模型通过预测文本中提及对之间的关系,并将推断与知识库事实匹配来提升准确率。添加该机制后,模型在六个常用数据集上平均提升1.3个F1点,在挑战性数据集ShadowLink上提升12.7个F1点。

研究领域:对话式AI、搜索与信息检索
标签:自然语言理解(NLU)、NAACL

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计