运动感知掩码提升视频表征学习
现代基础模型(如大语言模型)通过重建随机掩码的文本或图像实现最先进性能。这些模型无需人工标注,仅通过"填补空白"即可从大规模无标注数据中学习强大表征。
然而将该方法泛化至视频数据面临挑战:随机掩码可能使模型通过相邻帧填补空白;固定区域掩码则可能因相机运动导致模型重建背景而非目标对象。这些捷径会降低学习表征的质量,影响视频动作识别等下游任务性能。
在某中心国际计算机视觉会议(ICCV 2023)上,某机构提出新型运动引导掩码(MGM)算法。该算法通过追踪视频连续帧中的运动生成掩码,确保掩码区域的语义一致性并提高重建任务难度。关键创新在于利用现代视频压缩算法中已有的运动向量(而非计算成本高昂的光流),实现大规模视频模型的高效自监督训练。
技术实现原理
数字视频通常以24-30帧/秒播放。现代视频编解码器通过帧间渐变特性进行压缩:视频编码包含帧内编码帧(I帧)、定义像素块运动轨迹的运动向量,以及更新细节的残差值。运动向量以8×8或16×16像素块为单位,仅需1/64传统图像存储空间。
MGM算法利用编解码器设计获取高效运动信息。运动向量编码像素块的二维偏移量,分析显示互联网视频数据集中前景运动幅度普遍高于背景。因此采用运动向量作为确定感兴趣区域的代理,对每帧中最高运动区域进行矩形掩码,要求模型重建被掩码的3D视频体积。
实验验证
在对比六种先前视频掩码方法的实验中,所有基线方法均采用非时空连续的随机掩码。消融研究还测试了不同时空连续性和运动引导程度的掩码方案。在两个数据集上的评估表明,MGM在所有指标上超越先前方案,仅用三分之一训练数据即可匹配原最优方法性能。
在三个下游任务中,基于MGM生成的表征相比随机掩码基线获得最高5%的相对改进,证明运动引导掩码能更好捕获视频内容的语义信息。
总结
MGM是一种运动感知视频掩码算法,利用流行视频格式中已有的高效运动指引改进视频表征学习。该方法通过运动向量实现语义单元追踪,避免逐帧目标检测的计算开销,为大规模视频模型训练提供高效解决方案。
相关论文:《运动引导掩码用于时空表征学习》(ICCV 2023)