知识图谱与图神经网络技术解析

本文探讨了某中心产品知识图谱的构建过程,涉及从非结构化数据中提取结构化信息的技术方法,包括多模态知识提取、数据整合和图神经网络的应用,以及如何通过知识图谱提升信息检索和推荐系统的效果。

TheWebConf:规模问题下的社区汇聚

对于某中心的Xin Luna Dong而言,该会议的多样性反映了她所负责项目的多样性:构建某中心产品知识图谱。

知识图谱的构建与挑战

某中心高级首席科学家Xin Luna Dong领导着产品图谱的研究工作。该图谱是对某中心商店中产品及其属性(如品牌、颜色、风味)的庞大图形表示。产品图谱有助于组织产品描述,为缺货商品推荐替代品,并为选定产品推荐互补商品等。

作为知识图谱研究人员,Dong及其团队经常在知识管理和知识发现相关的会议上发表研究成果。今年,他们还有两篇论文入选了Web Conference。

Dong表示:“该会议拥有庞大的受众群体,且来自不同的社区。包括数据挖掘社区、自然语言处理(NLP)和信息检索社区,以及Web社区。受众多样化,我们可以从中学到许多不同的东西,获得不同的观点。此外,我也喜欢Web的视角。一旦涉及Web,就必须考虑扩展性;小规模解决方案无法生存。”而扩展性对于编码数百万产品信息、处理数百万种不同关系方式的项目至关重要。

Dong补充道,Web Conference受众的多样性反映了构建某中心产品图谱所需技术的多样性。

“最初,我们需要从文本、半结构化数据等中收集知识,这需要知识提取技术。这部分技术来自NLP社区,并且由于最近多模态知识提取的理念,还借鉴了计算机视觉技术。”

“一旦从不同来源获取知识,我们希望进行整合。我们需要对齐知识,例如理解不同来源可能对同一实体使用不同名称。这部分技术来自数据库数据集成和数据挖掘社区。”

“最后,在将所有数据清理并放入知识图谱后,我们希望用它来服务不同的应用。例如支持信息检索(IR)社区,支持问答系统(NLP和IR社区),以及支持推荐系统(数据挖掘和推荐社区)。构建知识图谱并利用它提升客户体验的整个过程,确实是一个跨社区的项目。”

非结构化数据的处理

乍看之下,构建某中心产品图谱似乎不需要知识提取:毕竟某中心目录有专门字段用于价格、尺寸、颜色、款式、品牌等属性。但某中心目录中的数据通常由第三方零售商或制造商提供,他们可能不会使用这些专用字段。

Dong举例说:“例如,他们只是将所有内容放入产品标题、产品描述中,并给我们一堆要点。您经常在某中心详情页上看到这种情况。当您查看大段文本时,需要尝试理解‘这是什么风味?’‘这是什么气味?’等等。您无法立即获得答案。”

同样,Dong解释说,类似产品可能以不同容量或每包不同数量销售。“当您尝试比较类似产品的单位价格时,如果没有结构化数据,也无法轻松获得。”

Dong团队的大部分研究涉及通过对非结构化数据施加结构,从中提取结构化值并学习分类层次结构。该团队的技术通常结合了NLP和点击行为分析。

“如果人们搜索茶,最终购买绿茶产品,我们推断绿茶是茶的一种子类型。层次结构子类型关系是什么?我们去年在KDD上发表了相关研究。然后我们希望将产品分配给这些产品类型。这是今年WebConf的出版物。”

图神经网络的应用

Dong于2014年首次参加Web Conference,当时“肯定没有那么多深度学习内容,”她说。“而现在,几乎所有内容都以深度学习为基础。”

大约在2018年,她开始注意到图神经网络(GNNs)的新重点。图神经网络是将嵌入概念推广到图的深度学习模型。嵌入将数据表示为多维空间中的点,使得点之间的空间关系携带有关数据的信息。在图神经网络中,每个节点的嵌入基于节点本身及其直接邻居——直接连接的节点以及这些连接的性质。

“您可以进行一跳邻居或两跳邻居,但通常不希望进行太多跳,因为信息会被稀释,”Dong解释说。“例如,您可以通过查看我的邻居来了解我——我曾工作过的公司、我的领域、与我互动的人。对于图中的每个实体,您根据邻居决定表示形式。然后根据该表示形式,您可以进行预测。”

“我们将GNN用于信息提取、多模态提取。我们将其用于集成和数据链接。我们将其用于清理。这绝对是我们目前使用的最强大工具之一。”

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计