结合知识图谱的快速精准方法
新型跨图注意力和自注意力机制实现了最先进的性能。
会议
2020年万维网会议
相关出版物
集体知识图谱多类型实体对齐
技术核心
知识图谱是一种能够比传统数据库更轻松捕获复杂关系的信息表示方法。在某中心,知识图谱被用于表示产品类型之间的层次关系、创作者与内容的关系,以及智能问答服务的通用信息等。
扩展知识图谱通常需要将其与另一个知识图谱集成。但不同图谱可能对相同实体使用不同术语,导致集成过程中出现错误和不一致。因此需要自动化的实体对齐技术,即确定不同图谱中哪些元素指向相同实体。
创新方法
在发表于万维网会议的论文中,提出了一种新的实体对齐技术,该技术考虑了实体名称周边图谱信息。在涉及两个电影数据库集成的测试中,该系统在精确召回曲线下面积(PRAUC)指标上比十个基线系统中表现最佳者提高了10%。
尽管系统性能提升,但仍保持较高的计算效率。与专为可扩展性设计的基于神经网络的DeepMatcher系统相比,在涉及电影和音乐数据库的两个任务中,训练时间减少95%,同时PRAUC有巨大改进。
该模型使用某机构云服务研究人员开发的新型开源工具DGL(深度图库)实现。
技术实现细节
图神经网络应用
该系统是图神经网络(GNN)的一个示例,这是一种最近在图相关任务中流行的神经网络类型。以包含Aditya Raj Kapoor节点"邻域"的Freebase示例为例,这是一个两跳局部图,包含六个节点。
标准GNN的第一步(称为0级步骤)是嵌入每个节点,或将其转换为固定长度的向量表示。该表示旨在捕获对网络任务(实体对齐)有用的节点属性信息,并在网络训练过程中学习。
在1级步骤中,网络考虑中心节点及其一跳邻居节点。对于每个节点,它生成一个新的嵌入,包括节点的0级嵌入与其直接邻居0级嵌入的总和连接。
在2级步骤(两跳网络中的最终步骤)中,网络为中心节点生成新的嵌入,包括该节点的1级嵌入与其直接邻居1级嵌入的总和连接。
关键改进
跨图注意力机制
在1级和2级聚合阶段,当网络对每个节点的邻居嵌入求和时,基于与另一个图的比较对这些和进行加权。在示例中,这意味着在IMDB和Freebase图中都出现的节点将获得比仅出现在IMDB图中的节点更大的权重。
跨图注意力机制因此强调图之间的对应关系并弱化差异。毕竟,图之间的差异正是首先结合它们信息的有用之处。
自注意力机制
然而这种方法有一个主要问题:有时图之间的差异比它们的对应关系更重要。自注意力机制在训练过程中学习实体的哪些属性对于将其与看起来相似的实体区分开来最重要。
这两个修改是我们模型与十个基线相比性能改进的主要原因。
计算效率优化
虽然为了实体对齐的目的比较两跳邻域,但不一定包括给定实体的整个两跳邻域。对邻域中包含的节点数量施加上限,并使用加权采样来选择要包含的节点。
样本权重与共享相同关系的邻居节点数量成反比关系。例如,一部电影可能有数十个演员但只有一个导演。在这种情况下,方法将比包含任何给定演员节点有更高概率在采样邻域中包含导演节点。以这种方式限制邻域大小可防止方法的计算复杂性失控。