知识图谱与图神经网络的Web会议洞见

本文探讨了在Web会议上讨论的大规模知识图谱构建技术,涉及从非结构化数据中提取信息、多模态知识整合以及图神经网络的应用,旨在提升产品推荐和信息检索等功能的准确性与扩展性。

TheWebConf:社区汇聚探讨规模问题

对于某中心的Xin Luna Dong而言,该会议的多样性反映了她项目的多样性:构建某中心产品知识图谱。

某中心的高级首席科学家Xin Luna Dong领导着产品图谱的研究,这是一个庞大的图形化表示,涵盖了某中心商店中的产品及其属性,如品牌、颜色和风味等。产品图谱有助于组织产品描述,建议缺货商品的替代品以及所选产品的补充品等。作为知识图谱研究人员,Dong和她的团队经常在知识管理和知识发现相关的会议上发表论文。今年,他们还有两篇论文入选了Web会议。

“它拥有庞大的受众,并且来自不同的社区,”Dong说。“有来自数据挖掘社区的人;有来自NLP(自然语言处理)和信息检索社区的人;还有来自Web社区的人。受众多样,我们可以从他们那里学到很多不同的东西。我们可以获得不同的意见。我也喜欢Web的视角。一旦你谈论Web,就必须考虑扩展性;小规模解决方案无法生存。”而扩展性对于一个旨在编码数百万产品信息的项目至关重要,这些产品可能以数百万种不同的方式相互关联。

Dong补充说,Web会议受众的多样性反映了构建某中心产品图谱所需技术的多样性。“在最初阶段,”她说,“我们需要从文本、半结构化数据等中收集知识,这需要知识提取。这来自NLP社区,并且由于最近的多模态知识提取理念,它还借鉴了计算机视觉的技术。”

“一旦我们从不同来源获取知识,我们就想整合它。我们想要对齐知识——例如,理解不同来源可能对同一实体使用不同的名称。这一部分来自数据库数据集成和数据挖掘社区。”

“最后,在我们清理完所有内容并将其放入知识图谱后,我们想用它来服务不同的应用。我们想用它来支持IR(信息检索):那是IR社区。我们想用它来支持问答:那是NLP和IR社区。我们想用它来支持推荐。那是数据挖掘和推荐社区。等等。构建知识图谱并用它来帮助提升客户体验的整个过程,确实是一个跨社区的项目。”

非结构化数据

乍一看,可能不太明显为什么构建某中心产品图谱需要知识提取:毕竟,某中心目录有专门的字段用于属性,如价格、尺寸、颜色、风格、品牌等。

但某中心目录中的数据通常由第三方零售商或制造商提供,他们可能不会使用这些专用字段。

“举个例子,他们只是把所有东西都放进产品标题、产品描述中,并给我们一堆要点,”Dong说。“你经常在某中心详情页上看到这种情况。然后当你查看那一大段文本时,你试图理解,‘这是什么风味?’‘这是什么气味?’等等。你无法立即得到它。”

同样,Dong解释说,类似的产品可能以不同的体积出售,或每包包含不同数量的物品。“当你试图比较类似产品的单位价格时,同样,没有结构化数据,你无法轻易得到它,”她解释道。

Dong的团队进行的许多研究涉及试图通过从中提取结构化值并学习分类层次结构来对非结构化数据施加结构。该团队的技术通常将NLP与点击行为分析相结合。

“如果人们搜索茶,然后最终购买绿茶产品,我们推断绿茶是茶的一个子类型,”她解释道。“什么是层次子类型关系?我们去年在KDD上发表了这一点。然后我们想将产品分配给那些产品类型。这是今年WebConf的出版物。”

图神经网络

Dong首次参加Web会议是在2014年,当时“肯定没有那么多深度学习,”她说。“而现在,一切都有点深度学习的味道。”

大约在2018年,她说,她开始注意到图神经网络(GNNs)的新 emphasis,这是一种将嵌入概念推广到图的深度学习模型。嵌入将数据表示为多维空间中的点,使得点之间的空间关系携带有关数据的信息。在图神经网络中,每个节点的嵌入基于节点本身及其直接邻居——它直接连接的节点以及这些连接的性质。

“你可以做一跳邻居,或两跳邻居,但通常,你不想做太多跳,因为那样信息会被稀释,”Dong解释道。“例如,你可以通过查看我的邻居来理解我——我工作过的公司、我的领域、我互动的人。对于图中的每个实体,你根据邻居决定一个表示。然后根据那个表示,你可以进行预测。”

“我们将GNN用于信息提取、多模态提取。我们将其用于集成和数据链接。我们将其用于清理。这绝对是我们目前使用的最强大的工具之一。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计