跨数据与任务扩展图像分割技术
在2025年计算机视觉与模式识别会议(CVPR)上提出的一种新方法,针对图像分割任务在多样化数据集和任务中的扩展性问题进行了创新性改进。传统分割模型虽然在独立任务上表现良好,但在面对新任务或陌生场景时往往表现不佳。提出的混合查询变换器(MQ-Former)方法支持跨多个任务和数据集的联合训练与评估。
可扩展的分割技术
图像分割是计算机视觉中将图像划分为不同区域或片段的任务。主要分割类型包括:
- 前景/背景分割(区分不同距离的物体)
- 语义分割(标注每个像素所属物体类别)
- 实例分割(识别每个像素所属物体实例)
“可扩展性"指分割模型能够随着训练数据集规模增大、任务多样性增加或两者同时提升而有效改进。以往研究多集中于数据或任务单一维度,而本研究同时解决了两个维度的问题。
双查询机制
研究发现阻碍分割模型有效扩展的关键问题在于对象查询的设计。对象查询是表示场景中物体假设的一种方式,可通过图像特征进行验证。
查询类型对比
- 可学习查询:通过图像特征交互学习的向量,编码位置和物体类别信息,在语义分割中表现优异
- 条件查询:类似于两阶段物体检测,通过变换器编码器生成区域建议,再将高置信度建议作为查询输入解码器生成最终预测,在物体检测和实例分割中表现突出
MQ-Former模型同时使用两种查询类型,通过解码器每层的交叉注意力机制,使可学习查询的处理能够纳入条件查询处理的信息,反之亦然。
利用合成数据
混合查询提升了跨任务扩展能力,而数据规模扩展则需要解决高质量标注数据稀缺的挑战。为此提出利用合成数据的解决方案。
数据转换策略
虽然分割数据稀缺,但物体识别数据相对丰富。物体识别数据集通常包含边界框(标识标注物体所在图像区域的矩形)。通过训练分割模型仅分割边界框内的物体,可显著提升性能,从而使用较弱的分割模型将物体识别数据集转换为可用于训练更强分割模型的数据集。
边界框还能引导自动标注模型关注图像中感兴趣区域,提供训练语义分割和实例分割模型所需的物体分类信息。
实验结果
在涵盖多种分割任务的15个数据集上评估该方法发现,使用MQ-Former同时扩展训练数据量和任务多样性能够持续提升模型的分割能力。
在包含25个数据集的SeginW开放词汇野外分割评估基准测试中:
- 将数据和任务从10万样本扩展到60万样本,目标掩码平均精度提升16%
- 加入合成数据后性能再提升14%,达到新的最先进水平
研究领域: 计算机视觉
技术标签: 图像分割, 数据表示