概述
机器学习模型依赖数据,但收集和标注训练数据通常需要大量资源。合成数据是常见解决方案,但即使合成数据也需要人工标注。在计算机视觉与模式识别会议(CVPR)上提出的HandsOff方法,通过结合少量现有标注图像和生成对抗网络(GAN),能够生成无限量的带标签合成图像。
技术原理
GAN基础
GAN通过生成器和判别器的对抗训练学习图像概率分布。生成器将随机向量转换为图像,潜在空间中的向量扰动可改变图像的语义特征(如光照、颜色)。
GAN反转
HandsOff采用GAN反转技术,训练辅助模型将输入图像映射到潜在空间向量。通过LPIPS损失函数优化,确保预测的潜在向量能生成与原始图像语义相似的图像,为后续标签生成奠定基础。
标签生成
利用已标注图像在潜在空间的对应点训练标签预测模型。采用超列表示法整合GAN各风格块的输出信息,通过对不同层级特征的上采样和下采样实现像素级标签预测。
实验效果
在五项计算机视觉任务测试中,HandsOff均优于两种传统标注生成方法和迁移学习基线,最高性能提升达17%。
应用价值
该方法显著降低计算机视觉模型对大量标注数据的依赖,为数据稀缺场景下的模型训练提供新思路。
相关论文:HandsOff: Labeled dataset generation with no additional human annotations
会议:CVPR 2023