改进文本与知识库间的实体链接技术
实体链接(EL)是将文本中的实体提及自动关联到知识库(存储实体关系事实的数据库)对应条目的过程,例如将"英格兰"链接至"英格兰足球队"而非国家实体。该技术是问答系统、信息抽取等自然语言处理应用的关键基础。
现有实体链接系统存在三大局限:计算密集型处理导致大规模应用成本高昂;仅适配特定知识库(如维基百科);无法链接训练后新增实体(零样本链接)。为解决这些问题,研究团队提出新型系统ReFinED,其特点包括:
高效架构设计
- 使用基于Transformer的编码器统一执行提及检测、细粒度实体分类和实体消歧
- 单次前向传播处理文档全部提及,速度达同类模型的60倍
- 通过描述评分(文本与实体描述的匹配度)和类型评分(实体类型匹配度)实现消歧
零样本适配能力
- 支持包含1500万实体的超大规模知识库
- 利用训练过的描述和类型特征泛化至未见实体
- 在标准数据集上F1分数平均提升3.7分
知识推理增强 针对描述与类型信息无法区分的歧义案例(如"克林顿"指代希拉里或比尔),团队提出补充方案:
- 提取文本中实体间关系谓词(如出生地、毕业院校)
- 与知识库事实进行匹配验证
- 该方法在六个基准数据集上平均提升1.3个F1分数,在高难度ShadowLink数据集提升12.7分
该系统已成功应用于某中心的网络级数据处理场景,为大规模实体抽取任务提供了高精度、低成本的解决方案。相关研究成果发表于NAACL 2022会议,包含《ReFinED:端到端实体链接的高效零样本方案》和《通过知识库推理改进实体消歧》两篇论文。