无需人工标注的自动图像标签生成技术

概述

机器学习模型依赖数据，但收集和标注训练数据通常需要大量资源。合成数据是常见解决方案，但即使合成数据也需要人工标注。在计算机视觉与模式识别会议（CVPR）上提出的HandsOff方法，通过结合少量现有标注图像和生成对抗网络（GAN），能够生成无限量的带标签合成图像。

GAN通过生成器和判别器的对抗训练学习图像概率分布。生成器将随机向量转换为图像，潜在空间中的向量扰动可改变图像的语义特征（如光照、颜色）。

HandsOff采用GAN反转技术，训练辅助模型将输入图像映射到潜在空间向量。通过LPIPS损失函数优化，确保预测的潜在向量能生成与原始图像语义相似的图像，为后续标签生成奠定基础。

利用已标注图像在潜在空间的对应点训练标签预测模型。采用超列表示法整合GAN各风格块的输出信息，通过对不同层级特征的上采样和下采样实现像素级标签预测。

在五项计算机视觉任务测试中，HandsOff均优于两种传统标注生成方法和迁移学习基线，最高性能提升达17%。

该方法显著降低计算机视觉模型对大量标注数据的依赖，为数据稀缺场景下的模型训练提供新思路。

相关论文：HandsOff: Labeled dataset generation with no additional human annotations
会议：CVPR 2023