图神经网络的未来发展趋势
某中心高级首席科学家George Karypis在Web搜索与数据挖掘会议(WSDM)上发表主题演讲,重点探讨了图神经网络(GNNs)这一深度学习研究热点领域。Karypis指出:“该领域仍存在需要深入理解的基础理论问题”。
图神经网络的核心机制
图结构由节点(通常用圆形表示)和边(连接节点的线段)组成。图神经网络将图中包含的信息表示为向量,使其他机器学习模型能够利用这些信息。
“在现代标准机器学习工作流中,我们首先计算文本的表示,然后将该表示作为下游模型的输入。对于图数据,我们使用图神经网络完成完全相同的工作流程。“Karypis举例说明,“在药物发现用例中,可以预训练图神经网络使其学习如何计算小分子的表示,然后将该表示作为另一个模型的输入来预测分子的各种物理化学性质。”
表示学习的技术挑战
过度平滑问题
节点表示计算是一个迭代过程:首先计算每个节点的表示,然后根据其先前表示和直接邻居的表示更新每个节点的表示。每次重复这个过程都会将表示范围扩展一跳。
但持续迭代会导致过度平滑(oversmoothing)问题:“如果不断重复这个过程,几乎每个节点最终都会变得相同。对于社交网络等自然图,这种情况通常在很少的步骤后就会发生。”
数据建模转换
另一个关键研究问题是如何以图形式表示数据,因为这会对GNN性能产生显著影响。
“在某些应用领域,我们已经成功开发了准确的基于GNN的模型,比如底层数据已经是图结构的小分子、大分子或知识图谱。但对于可以通过多种方式建模为图数据的领域,通常需要大量试错才能开发成功的基于GNN的方法,因为我们需要考虑图和GNN模型之间的相互作用。”
Karypis以关系数据库为例说明:“根据不同的建模方式,节点之间的距离可能从一跳变为三跳甚至更多,这会在GNN聚合信息时产生完全不同的拓扑结构。开发能够容忍底层数据建模变化的GNN模型将大大减少开发成功基于GNN方法所需的工作量。”
应用前景与研究展望
图神经网络不仅是深度学习研究中最热门的领域之一,正在被越来越多领域和应用所采用。Karypis总结道:“在GNN研究领域,仍有许多我们未知的内容。这是一个仍处于早期发展阶段的研究领域。”