使用双曲面嵌入知识图谱
知识图谱是一种高效的信息表示方式,但传统的分析方法(通过图连接逐跳追踪)扩展性较差。
亚马逊产品图谱元素的双曲面嵌入二维投影。为便于解释,图谱本身叠加在嵌入上。双曲面大小表示对应图谱元素与其他元素的连接密度,本例中体现术语的通用性。投影将图谱层次较低的元素呈现为更接近嵌入圆边界。
近年来,知识图谱嵌入将图谱元素表示为多维空间中的点,提供了更高效的分析方式,但牺牲了图谱的大部分信息丰富性。
在今年度的网络会议上,研究人员提出了一种嵌入知识图谱的新方法:在庞加莱超球面上表示为双曲面。双曲面是有界曲面(矩形的曲线模拟),双曲空间的特性使其能够捕获传统知识图谱嵌入丢失的层次信息。
论文描述了一种学习双曲面嵌入的神经网络架构,能够逻辑组合知识图谱查询。例如,可以在产品图谱中搜索同时属于品牌A和品牌B的所有鞋类产品,该查询可逻辑表示为品牌A、品牌B与鞋类嵌入的交集并集。
该产品图谱中,品牌名称(A和B)和产品类型(鞋类)均为网络节点。具有两个父节点(如品牌B和鞋类)的节点属于两个类别。具有相同两个父节点的节点集合构成父类别的交集。
在实验中,使用五个不同数据集对比了四种图嵌入方案。在每个数据集上提出九种不同查询,共45次查询。新方法在44次查询中优于前人方案,个别查询相比最佳现有方案常见20%至50%的性能提升。
双曲线交集原理
知识图谱包含代表实体的节点和代表实体间关系的边。典型图嵌入将节点和边表示为嵌入空间中的向量。良好嵌入时,节点与其边的向量和应近似共享该边的节点向量。
新嵌入方案HypE将节点和边嵌入为庞加莱超球面上的双曲面。具体而言,每个双曲面由两对平行弧对齐双曲线的交点定义。
弧对齐双曲线是与庞加莱超球面直径平行且与超球面边界正交的部分圆(庞加莱超球面上,平行性是弯曲空间的概念;平行线可能呈现不同曲率,其定义在于互不相交)。
左图为庞加莱圆盘上的九个弧对齐双曲线;其余八个双曲线与圆盘直径CD平行(互不相交)。右图是由两对平行双曲线交点定义的双曲面(CDEF)。
由双曲线交点确定的双曲面可通过其中心位置和边界极限描述(见上图)。
双曲面的交集。
由于双曲面嵌入在空间中扩展,HypE能够学习其空间重叠表示图谱编码类别逻辑交集的嵌入。扩展前述示例,品牌A鞋类的嵌入将是品牌A嵌入与鞋类嵌入的交集。
网络架构
训练神经网络接收以下输入:一个实体、其一个关系、任意数量附加实体,以及指示三种操作(平移、并集、交集)的控制信号。并集和交集是标准逻辑操作;平移表示通过图谱遍历若干跳(实验中为一到三跳)。
HypE架构,操作信号控制网络内开关序列。黄色表示双曲面中心,粉色表示其边界。
控制信号设置网络内一系列开关,决定输入以何种方式贡献于输出。网络因此显式学习编码特定类型逻辑关系信息的嵌入。
实验比较了九种不同查询的嵌入方案性能:单跳、双跳、三跳平移;两实体和三实体交集;两实体并集;以及平移与逻辑运算符的三种组合。
在五个数据集中,HypE在除联合平移测试外的所有测试中均表现最佳(该测试排名第二)。在五个数据集上,其相对于次优嵌入方案的平均改进为7%至33%。
研究领域
搜索与信息检索
标签
知识图谱 | 数据表示 | 网络会议 | 双曲嵌入
相关论文:《基于知识图谱逻辑查询的自监督双曲面表示》