高效视频语义分割标注方法
当前最先进的计算机视觉模型依赖于监督学习,但标注成本高昂,尤其在语义分割任务中需为图像每个像素添加标签。视频语义分割的标注成本更为昂贵,目前尚无包含逐帧标签的公开视频数据集,仅存在稀疏采样帧的标注。逐帧标注将支持更鲁棒的模型训练与评估。
在今年的计算机视觉应用冬季会议(WACV)上,提出了一种新颖的人机交互框架,用于为完整视频生成语义分割标注,显著提升标注者时间利用效率。
方法框架
该方法交替进行主动样本选择(挑选最关键样本进行人工标注)与测试时微调(将人工标注传播至视频相邻帧),通过多次迭代确保标注质量。实验表明,该方法在保持标签准确性(平均交并比mIoU大于95%)的同时,将完整视频标注所需点击量减少高达73%。
测试时微调
从预训练的视频语义分割网络开始,目标是通过适配特定输入视频来实现高精度标注。该方法受人类标注者处理视频任务的启发:标注者会分析相邻帧以确定对象类别,并参考同一视频中的现有标注。新损失函数包含两个部分:一是惩罚连续帧间语义预测不一致(通过光流建立帧间对应关系),二是惩罚与现有人工标注不一致的预测。
主动样本选择
每次迭代中,模型会在算法主动选择并经标注者标记的样本上进行微调。这是一种主动学习方式,旨在自动识别信息丰富的训练样本,减少需标注样本数量。基础思想是不确定性采样:若网络对样本标签预测置信度低,则选择该样本进行人工标注。
但单纯不确定性采样存在缺陷:多个具有相同视觉特征的样本可能均产生低置信度预测,导致重复标注。为使选择策略更全面,进一步要求样本彼此不同(多样性采样),采用基于聚类的采样技术:使用分割网络已学习的特征集在嵌入空间对未标注样本聚类,选择聚类中心最近的样本(质心样本)进行标注。
为结合不确定性采样与多样性采样,首先选择最不确定的一半样本,将其聚类为b个簇(b为单次迭代的标注预算),然后选择b个簇质心送交人工标注。由此选择高不确定性且彼此不同的样本。
标注粒度实验
在主动样本选择中,尝试了多种样本粒度:整帧(逐像素)、矩形块或超像素(根据视觉相似性分组的不规则像素簇)。实验发现最优粒度不固定,取决于所需标注质量水平:要达到80% mIoU,标注16×16像素矩形样本所需点击量最少;要达到95% mIoU,标注整帧样本所需点击量最少。
另一发现涉及网络预测中对象边界的质量:基于整帧样本训练的模型优于其他粒度训练的模型,可能因为帧级标注提供最丰富的语义/边界信息。而超像素通常由同一对象像素组成,因此传递的对象边界信息较少。这是选择标注粒度时需考虑的另一因素。
相关会议:WACV 2023
相关论文:人机交互视频语义分割自动标注