无监督图像分割技术突破
技术背景
语义分割任务需对数字图像中每个像素进行类别标注(如人物、猫、飞机等),广泛应用于基于内容的图像检索、医学影像和物体识别等领域。
基于机器学习的语义分割系统通常需要手工精确标注物体边界的训练图像,这是一个耗时操作。相比之下,物体检测系统只需使用边界框(bounding boxes)标注的图像进行训练。人工标注图像分割所需时间平均是标注边界框的35倍。
创新方法
在欧洲计算机视觉会议(ECCV)上提出的新系统Box2Seg,仅使用边界框训练数据就能学习图像分割,属于弱监督学习范畴。
实验表明:
- 在平均交并比(mIoU)指标上超越先前弱监督系统2%
- 性能与使用全分割数据预训练的模型相当
- 先弱监督预训练再全数据微调时,性能比通用预训练模型提升16%
技术架构
噪声标签处理
将边界框视为噪声标签:
- 框内像素视为待分割物体的部分标注(可能存在误标)
- 框外像素作为正确标注的背景像素
三网络架构
训练时系统包含三个卷积神经网络:
- 物体分割网络:核心分割模块
- 嵌入网络:学习像素向量表示,区分前景背景
- 标签特定注意力网络:识别同类边界框中的重复视觉特征
嵌入网络使用GrabCut算法提供的粗分割进行预训练,其输出为物体分割网络提供监督信号。注意力网络生成特征图,突出特定物体类的像素簇特征。
实验结果
使用标准基准数据集测试表明:
- Box2Seg仅用边界框数据就超越了12个全监督训练系统
- 结合全分割数据微调后性能提升更加显著
- 证明弱监督训练在无分割数据时有效,甚至在有数据时也有优势
应用价值
该方法为以下场景提供解决方案:
- 缺乏精细标注数据的领域
- 需要快速部署的图像分割应用
- 医学影像等标注成本极高的领域
训练模型架构:边界框位置(B)和GrabCut提供的粗分割(M)共同监督物体分割网络(θy)和两个辅助网络(θa、θb)的训练
嵌入网络识别的特征亲和力:较亮区域表示网络判定具有共同特征的像素
从左至右:人工分割、GrabCut粗分割、标签特定注意力网络输出。红色端频谱表示特定标签边界框内频繁出现的图像特征