视频语义分割的高效标注技术

本文提出了一种结合主动样本选择和测试时微调的人机协作框架,可将视频语义分割标注所需点击量减少73%,同时保持95%以上的mIoU标注精度。该方法通过光流构建帧间关联,并创新性地融合了不确定性与多样性采样策略。

视频语义分割的标注效率优化

当前最先进的计算机视觉模型依赖监督学习,但语义分割标注成本高昂——视频场景下需要逐帧标注每个像素。现有公共数据集仅标注稀疏采样帧,而全帧标注能显著提升模型训练与评估效果。

  1. 测试时微调
    基于预训练网络,通过新型损失函数适配目标视频:

    • 光流构建帧间对应关系,惩罚连续帧语义预测不一致
    • 惩罚与已有标注不一致的预测
  2. 主动样本选择
    结合不确定性与多样性采样:

    • 筛选预测置信度低的样本
    • 通过聚类在特征空间选择最具代表性的样本
    • 每次迭代选择最不确定样本的前50%进行聚类,按标注预算选取聚类中心

标注粒度实验

研究对比了三种标注粒度:

  • 全帧逐像素标注
  • 矩形图像块(如16×16像素)
  • 超像素(视觉相似像素簇)

实验发现:

  • 要达到80% mIoU,16×16矩形块所需点击量最少
  • 要达到95% mIoU,全帧标注效率最高
  • 全帧标注能提供更完整的物体边界信息

该方法在保持95%以上mIoU精度的同时,将整段视频标注所需点击量减少达73%。该技术为视频理解任务提供了高效的标注解决方案,相关成果已发表于WACV 2023会议。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计