跨数据与任务扩展图像分割技术
在2025年计算机视觉与模式识别会议(CVPR)上提出的一种新方法,旨在解决图像分割在多样化数据集和任务中的扩展性问题。传统分割模型虽然在孤立任务上有效,但在面对新任务或陌生场景时往往表现不佳。提出的方法采用混合查询变换器(MQ-Former)模型,支持跨多个任务和数据集的联合训练与评估。
可扩展的分割
图像分割是一种计算机视觉任务,涉及将图像划分为不同区域或片段。每个片段对应场景中的不同对象或部分。分割任务包括前景/背景分割(区分不同距离的对象)、语义分割(将每个像素标记为特定对象类别)和实例分割(识别每个像素属于对象类别的特定实例)。
“可扩展性”意味着分割模型能够随着训练数据集规模的增加、执行任务的多样性或两者的结合而有效改进。大多数先前研究只关注数据或任务多样性中的一个方面,而本方法同时解决两者。
两种查询的故事
研究表明,阻碍分割模型有效扩展的一个问题是对象查询的设计。对象查询是一种表示场景中对象假设的方式,这种假设可以与图像特征进行测试。
对象查询主要有两种类型。第一种称为“可学习查询”,是通过与图像特征交互并编码位置和对象类别信息的可学习向量。可学习查询在语义分割上表现良好,因为它们不包含对象特定的先验信息。
第二种类型称为条件查询,类似于两阶段对象检测:通过变换器编码器生成区域提议,然后将高置信度提议作为查询输入变换器解码器以生成最终预测。条件查询与对象类别紧密对齐,在语义明确的对象检测和实例分割上表现出色。
本方法结合了两种查询类型,提升了模型在任务间的迁移能力。MQ-Former模型使用可学习查询和条件查询表示输入,解码器的每一层都具有交叉注意力机制,使得可学习查询的处理可以纳入条件查询处理的信息,反之亦然。
利用合成数据
混合查询有助于跨分割任务的可扩展性,但分割模型可扩展性的另一个方面是数据集规模。扩展分割模型的一个关键挑战是高质量标注数据的稀缺性。为了克服这一限制,提出利用合成数据。
虽然分割数据稀缺,但对象识别数据丰富。对象识别数据集通常包括边界框或矩形,用于标识标记对象所在的图像区域。要求训练好的分割模型仅分割边界框内的对象显著提高了性能;因此,能够使用较弱的分割模型将对象识别数据集转换为可用于训练更强分割模型的分割数据集。
边界框还可以将自动标注模型聚焦于图像中的感兴趣区域,以提供训练语义分割和实例分割模型所需的对象分类类型。
实验结果
使用涵盖多种分割任务的15个数据集评估了该方法,发现通过MQ-Former,扩展训练数据量和任务多样性持续增强了模型的分割能力。
例如,在SeginW基准测试中(包括25个用于开放词汇野外分割评估的数据集),将数据和任务从100,000个样本扩展到600,000个,对象掩码的平均精度提高了16%。结合合成数据进一步将性能提升了14%,建立了新的技术标准。