使用监督学习训练图像聚类模型
基于层次图神经网络的方法将F分数相对前代模型提升49%
会议
ICCV 2021
相关出版物
《学习层次图神经网络进行图像聚类》
大多数机器学习模型采用监督学习,需要依赖标注数据进行训练,而获取标注数据成本高昂且耗时。无监督学习的主要方法是聚类,即根据显著特征将数据点分组。每个聚类代表某种类别,例如同一人物的照片或同一动物物种的照片。
聚类算法通常依赖启发式方法(如聚类中心间的阈值距离或聚类分布形状)来决定聚类边界。在国际计算机视觉会议(ICCV)上发表的论文中,提出从数据中学习边界划分的方法。
首先使用图表示视觉数据,然后利用图神经网络(GNN)生成图节点的向量表示。这一步延续了先前工作。但不同于依赖启发式方法,该方法使用标注数据学习如何对向量进行聚类,并关键性地决定聚类的粒度级别。这些标注数据称为元训练数据,目标是学习通用聚类技术而非特定分类模型。
特别提出层次化GNN方法:通过在图形节点间添加边创建聚类,然后在聚类间添加边形成更大聚类,迭代直至不再需要添加边为止。
基于图的层次聚类方法示意图。图像边框和图形节点的颜色表示数据类型(本例中为同一演员的照片)。该方法具有层次性,迭代地将一层生成的小聚类作为下一层聚类单元。基础模型称为LANDER(链接近似和密度估计优化),层次聚类方法称为Hi-LANDER。
最终将该层次聚类技术应用于与元训练数据分类类别不相交的测试集。实验发现,与先前基于GNN的监督和无监督方法相比,该方法将F分数(综合考量假阳性和假阴性)平均分别提高49%和47%。
图构建
研究针对训练模型聚类与元训练数据相似但无类别重叠的视觉数据场景。例如元训练数据是电影明星面部,目标应用是聚类政治家、运动员或其他公众人物的面部。
流程第一步是使用元训练数据构建监督分类器:若元训练数据是电影明星面部,分类器用电影明星姓名标注输入图像。分类器采用编码器-解码器结构:编码器生成输入的固定长度向量表示(特征向量),解码器使用该向量预测标签。训练完成后仅使用编码器。
特征向量定义多维空间中的点。基于向量位置构建图,其中每个节点代表图像,图中每个图像的k个最近邻在特征空间中与之连接(共享边)。该图将作为聚类模型的输入。
聚类模型
采用层次化聚类方法。基于节点嵌入,聚类模型预测节点间的边。聚类定义为节点组,其中每个节点至少与组内一个其他节点共享边,且不与组外任何节点共享边。
聚类模型的目标不仅是复现最近邻图,还要链接代表相同数据类型的节点。最近邻连接有助于预测聚类连接,但二者并不相同。
第一轮处理后,将每个聚类聚合为单个代表性"超节点"并重复全过程:在超节点与其k个最近邻间创建边,将结果图通过相同GNN传递,基于超节点嵌入预测边。迭代该过程直至模型预测无节点间边。
聚类模型基于两个目标进行训练:一是正确预测节点间链接(正确链接指选取元训练数据中相同数据类型的两个代表,如同一演员的两张照片);二是正确预测给定图邻域中特定数据类型的密度,即针对每个节点预测附近相同数据类型邻居的比例。
既往研究表明考虑数据密度可改善结果。但先前链接预测和数据密度预测由独立模型处理。通过单一模型联合预测两者,显著提升计算效率。相信这种组合也有助于提高准确性。
另一创新点在于:通过层次化处理方案优化整个输入图的聚类。先前方法先将图划分为子图,然后在子图内执行推理。这阻碍了天然并行化(运行时高效),限制了信息在图中的流动效果。全图处理是模型效率提升的另一原因。
实验中采用两组元训练数据:一组为人脸特写,另一组为特定动物物种图像。在另两个数据集上测试人脸训练模型,其数据类别与元训练集重叠为零或极低(0%和不足2%)。在未见物种数据集上测试动物物种训练模型。 across both models and the three test sets, our average improvements over previous GNN-based clustering models and unsupervised clustering methods were 49% and 47%, respectively.
在持续工作中,正研究训练更通用聚类模型的可能性,其推理性能在不同数据类型间更具可迁移性——例如能同时准确聚类人脸和动物物种。
致谢:Tianjun Xiao, Yongxin Wang, Yuanjun Xiong, Wei Xia, David Wipf, Zhang Zheng, Stefano Soatto
研究领域
计算机视觉
机器学习
标签
无监督学习
图神经网络(GNN)
聚类
ICCV