视频语义分割的标注效率优化
当前最先进的计算机视觉模型依赖监督学习,但语义分割标注成本高昂——视频场景下需要逐帧标注每个像素。现有公共数据集仅标注稀疏采样帧,而全帧标注能显著提升模型训练与评估效果。
-
测试时微调
基于预训练网络,通过新型损失函数适配目标视频:- 光流构建帧间对应关系,惩罚连续帧语义预测不一致
- 惩罚与已有标注不一致的预测
-
主动样本选择
结合不确定性与多样性采样:- 筛选预测置信度低的样本
- 通过聚类在特征空间选择最具代表性的样本
- 每次迭代选择最不确定样本的前50%进行聚类,按标注预算选取聚类中心
标注粒度实验
研究对比了三种标注粒度:
- 全帧逐像素标注
- 矩形图像块(如16×16像素)
- 超像素(视觉相似像素簇)
实验发现:
- 要达到80% mIoU,16×16矩形块所需点击量最少
- 要达到95% mIoU,全帧标注效率最高
- 全帧标注能提供更完整的物体边界信息
该方法在保持95%以上mIoU精度的同时,将整段视频标注所需点击量减少达73%。该技术为视频理解任务提供了高效的标注解决方案,相关成果已发表于WACV 2023会议。