无监督图像分割技术突破

技术背景

语义分割任务需对数字图像中每个像素进行类别标注（如人物、猫、飞机等），广泛应用于基于内容的图像检索、医学影像和物体识别等领域。

基于机器学习的语义分割系统通常需要手工精确标注物体边界的训练图像，这是一个耗时操作。相比之下，物体检测系统只需使用边界框（bounding boxes）标注的图像进行训练。人工标注图像分割所需时间平均是标注边界框的35倍。

在欧洲计算机视觉会议（ECCV）上提出的新系统Box2Seg，仅使用边界框训练数据就能学习图像分割，属于弱监督学习范畴。

实验表明：

将边界框视为噪声标签：

训练时系统包含三个卷积神经网络：

嵌入网络使用GrabCut算法提供的粗分割进行预训练，其输出为物体分割网络提供监督信号。注意力网络生成特征图，突出特定物体类的像素簇特征。

使用标准基准数据集测试表明：

该方法为以下场景提供解决方案：

训练模型架构：边界框位置（B）和GrabCut提供的粗分割（M）共同监督物体分割网络（θy）和两个辅助网络（θa、θb）的训练

嵌入网络识别的特征亲和力：较亮区域表示网络判定具有共同特征的像素

从左至右：人工分割、GrabCut粗分割、标签特定注意力网络输出。红色端频谱表示特定标签边界框内频繁出现的图像特征