图神经网络的技术演进与应用挑战
核心技术原理
图神经网络(GNN)通过将图中包含的信息表示为向量,使其他机器学习模型能够利用这些信息。其核心工作流程包括:
- 计算每个节点的初始表示
- 迭代更新节点表示,综合考虑先前表示和直接邻居的表示
- 每次迭代将表示范围扩展一跳
关键技术挑战
过度平滑问题
当迭代过程持续进行时,几乎所有节点最终会变得相同,这种现象称为"过度平滑"。在自然图形网络中,这通常发生在很少的步骤之后。
数据图表示难题
如何首先以图形形式表示数据是一个突出的研究问题,因为这对GNN性能有显著影响。不同数据建模方式会导致完全不同的拓扑结构:
- 关系型数据库可创建多个关联表
- 也可在主表中创建不同列
- 这两种方式会导致节点间距离从一跳变为三跳甚至更多
应用领域实践
药物发现场景
通过预训练图神经网络学习计算小分子的表示,然后将该表示作为输入传递给另一个预测分子各种物理化学性质的模型。
推荐系统应用
节点可同时表示客户和产品,边既可表示产品间的相似性,也可表示哪些客户购买了哪些产品。
研究发展方向
需要开发能够容忍底层数据建模方式变化的GNN模型,这将大大减少开发成功的基于GNN方法所需的工作量。当前GNN研究仍处于早期阶段,存在许多尚未解决的基础理论问题。