KDD:图神经网络与自监督学习
作为今年知识发现与数据挖掘会议(KDD)的高级程序委员会委员,Chandan Reddy 通过广泛审阅论文提交注意到两大研究趋势:图神经网络和自监督学习相关工作。
“图神经网络是近年来极其热门的研究主题,在本届 KDD 会议上也是如此,”Reddy 表示,“在机器学习中,通常假设不同数据样本彼此独立。但在现实世界中,始终存在关于两个实体之间关系的更多信息。如果有两个人,他们之间就存在联系。了解你的邻居,就可以开始预测关于你的某些信息。因此自然会有大量以图形式表示的数据被收集。”
在知识发现背景下,图的节点通常代表实体,边则代表实体之间的关系。图神经网络提供了一种将节点表示为多维空间中向量的方法,使得节点在空间中的位置编码了关于彼此关系的信息。例如,图神经网络有助于识别图中缺失的边——即实体之间先前未被注意到的关系。
自监督学习中,机器学习模型使用未标记数据在与目标任务相关但不完全相同的代理任务上进行训练,然后在标记数据上进行微调。如果代理任务选择得当,可以显著减少对标记数据的需求。
自监督学习“大约三年前通过 BERT 模型及其他掩码语言建模方法在自然语言处理中引入,”Reddy 解释道,“现在已成为数据挖掘领域的主流话题。”BERT 是一种语言模型,意味着它编码了特定语言中不同词序列的概率。它是在随机掩码个别词的未标记文本上训练的,其代理任务是填充缺失词汇。
“在图神经网络中,类比是移除一条边并尝试预测是否存在边,”Reddy 解释,“基于此,可以利用该信息学习节点之间的依赖关系。”
应用特定表示
但 Reddy 指出,尽管相同的基本 BERT 模型已证明对自然语言处理(NLP)中的广泛问题有用,但知识网络中节点的理想向量表示很大程度上取决于最终应用。部分原因是知识网络可能包含异质数据类型。例如,描绘在线购物者购买偏好的图可能具有代表产品类别的节点、代表特定产品的节点以及代表产品特征(如电池容量或面料类型)的节点。
“当拥有链接预测模型,想要预测两个节点之间是否可以形成链接时,不希望为特定节点学习单一表示,”Reddy 解释,“如果必须向一个人推荐一本书,表示必须不同于向同一个人推荐电影时的表示。会希望当向对这类书籍感兴趣的群体推荐时,书籍的表示不同于向对另一类书籍感兴趣的人推荐时的表示。在某种意义上,必须拥有该节点的多方面或多视图表示。”
在自己的研究中,Reddy 经常从事医疗保健领域的知识发现工作,其中数据异质性问题尤为突出。
“例如,某些实验室值随时间监测,”他解释,“患者入住 ICU,每 12 小时定期进行血压、血液检查。因此拥有时间序列数据,本质上是顺序的。拥有人口统计数据,本质上是静态的。然后拥有临床笔记, again 是顺序的,但不是时间性的,而时间序列数据是时间性的。还拥有 X 光和 CT 扫描形式的图像数据。”
“现在必须提出一种能够利用所有这些不同形式数据的深度学习模型。医疗保健只是一个应用,但可以想到许多其他应用,其中利用此类多模态数据正成为一个重要问题。在现实世界数据中,不仅看到一种特定形式的数据。关于任何特定实体收集了多种异质形式的数据。”
高效学习
自监督学习本质上是一种更高效进行机器学习的技术:标记数据效率低下,利用未标记数据减少了对标记数据的依赖。除了担任 KDD 的高级程序委员会委员外,Reddy 还是会议“数据高效机器学习研讨会”的组织者之一,与某中心的 Nikhil Rao 和 Sumeet Khatariya 共同组织。
“人们经常讨论有限数据下的领域适应,”Reddy 说,“有不同相关主题,如少样本或零样本学习、迁移学习、元学习、多任务学习等。有些人讨论域外分布。有几种概念试图在现实应用中实现数据高效学习。希望在该研讨会中以更连贯的方式进行所有这些讨论,以便可以分享知识,可以看到什么有效,什么无效。试图让来自不同社区的人们聚集在一起,以便他们可以学习不同方法在各个领域的成功和失败故事。”
“去年发表的一些图论文基本上受到从 NLP 和计算机视觉社区借鉴的简单技术的启发。正尝试看看是否可以分享这些领域的最新趋势和知识。”