知识图谱融合与图神经网络技术解析

本文介绍了一种结合跨图注意力与自注意力机制的新型实体对齐技术,在保持高计算效率的同时显著提升多类型知识图谱的融合精度,相比基线系统训练时间减少95%且PRAUC指标提升10%。

结合知识图谱的快速精准方法

新型跨图注意力和自注意力机制实现了最先进的性能。

会议
2020年万维网会议

相关出版物
《集体知识图谱多类型实体对齐》

知识图谱是一种能够比传统数据库更轻松捕获复杂关系的信息表示方法。在某中心,知识图谱被用于表示电商平台的产品类型层次关系、音乐与视频平台创作者与内容的关联关系,以及智能助手的问答服务通用信息等。

扩展知识图谱通常需要将其与另一个知识图谱集成。但不同图谱可能对相同实体使用不同术语,导致集成过程中出现错误和不一致。因此需要自动化的实体对齐技术,即确定不同图谱中哪些元素指向相同实体。

在万维网会议收录的论文中,研究团队描述了一种新的实体对齐技术,该技术考虑了实体名称周边图谱信息。在整合两个电影数据库的测试中,该系统在精确召回曲线下面积(PRAUC)指标上比十个基线系统中表现最佳者提升10%,该指标用于评估真阳性率和真阴性率之间的权衡。

尽管系统性能提升,其计算效率仍然极高。作为对比的基线系统之一是基于神经网络的DeepMatcher系统,该系统专门为可扩展性设计。在涉及电影数据库和音乐数据库的两项任务中,新系统训练时间比DeepMatcher减少95%,同时PRAUC大幅提升。

该模型采用某中心云服务研究人员开发的新型开源工具DGL(深度图库)实现。图是由节点(通常表示为圆形)和边(通常连接圆形的线段)组成的数学对象。网络图、组织架构图和流程图是常见的图示例。

本研究专门解决多类型知识图谱的合并问题,即节点代表多种类型实体的知识图谱。例如在处理的电影数据集中,节点可能代表演员、导演、电影、电影类型等,边则代表实体之间的关系——出演、导演、编剧等。

该示例说明实体对齐的挑战:IMDB将电影《Don’t Stop Dreaming》的编剧列为Aditya Raj,而(已停止服务的)Freebase数据库将其列为Aditya Raj Kapoor。他们是否是同一个人?

该系统是图神经网络(GNN)的典型应用,这是最近在图相关任务中流行的一种神经网络。以上述Freebase示例为例,其中包含代表Aditya Raj Kapoor节点的"邻域"。这是一个两跳局部图,包含与Kapoor连接的节点(一跳)和与这些节点连接的节点(两跳),但不会进一步扩展到知识图谱中。该邻域因此包含六个节点。

在标准GNN中,第一步(称为0级步骤)是嵌入每个节点,或将其转换为固定长度的向量表示。该表示旨在捕获对网络任务(实体对齐)有用的节点属性信息,并在网络训练过程中学习。

接下来在1级步骤中,网络考虑中心节点(此处为Aditya Raj Kapoor)和与其一跳距离的节点(《Don’t Stop Dreaming》和《Sambar Salsa》)。为每个节点生成新嵌入,包括该节点的0级嵌入与其直接邻居0级嵌入之和的拼接。

在2级步骤(两跳网络的最终步骤)中,网络为中心节点生成新嵌入,包括该节点的1级嵌入与其直接邻居1级嵌入之和的拼接。

图神经网络通过递归嵌入将两跳图中的所有信息压缩为单个向量的演示。实体之间的关系(如电影数据库中的"制作"和"编写",分别用红色和黄色箭头表示)被编码在实体自身的0级嵌入中(红色和橙色块)。

在此示例中,该过程将Freebase数据库的整个六节点邻域图压缩为单个向量。对IMDB的十节点邻域图执行相同操作,比较这些向量是网络判断图中心实体(Aditya Raj和Aditya Raj Kapoor)是否相同的依据。

这是GNN用于实体对齐问题的标准实现。但在实验中表现不佳,因此研究团队进行了两项重大改进。

第一是跨图注意力机制。在1级和2级聚合阶段,当网络对每个节点的邻居嵌入求和时,会根据与另一个图的比较对这些和进行加权。

在此示例中,这意味着在1级和2级聚合期间,同时出现在IMDB和Freebase图中的节点《Don’t Stop Dreaming》和《Sambar Salsa》将获得比仅出现在IMDB中的《Gawaahi》和《Shamaal》更大的权重。

本示例中,跨图注意力机制(蓝线)对邻域图之间共享的实体嵌入给予额外权重(虚线红线)。

跨图注意力机制因此强调图之间的对应关系并弱化差异。毕竟,图之间的差异正是需要整合其信息的原因。

《Radioactive》原版与混音版是不同的音轨,但它们共享太多属性,可能导致朴素实体对齐系统错误分类为相同实体。

但该方法存在一个主要问题:有时图之间的差异比对应关系更重要。以Imagine Dragons热曲《Radioactive》的两个版本为例,原版专辑剪辑和与Kendrick Lamar合作的混音版。此处跨图注意力机制可能过度加权两轨之间的众多相似性,而低估关键差异:主要表演者。因此网络还包含自注意力机制。

自注意力机制在涉及Aditya Raj的运行示例中的应用。

在训练过程中,自注意力机制学习实体的哪些属性对于区分看似相似的实体最为重要。此情况下,它将学习到许多不同录音可能共享相同作曲者,区分它们的是表演者。

这两项改进是模型相比十个基线系统性能提升的主要原因。最后简要说明提高模型计算效率的其中一种技术。虽然为了实体对齐比较两跳邻域,但不一定包含给定实体的整个两跳邻域。对邻域中包含的节点数量设置上限,并使用加权采样选择要包含的节点。

样本权重与共享相同关系的邻居节点数量呈反比关系。例如,一部电影可能有数十名演员但只有一名导演。这种情况下,方法在采样邻域中包含导演节点的几率远高于任何给定演员节点。通过这种方式限制邻域大小,防止方法计算复杂度失控。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计