运动感知掩码技术提升视频表征学习
现代基础模型(如大语言模型)通过重建随机掩码的文本或图像,无需人工标注即可从海量无标注数据中学习强大表征。但将这种方法推广到视频数据面临独特挑战:随机掩码可能让模型通过相邻帧简单补全内容,而固定区域掩码则可能因相机运动导致模型仅学习重建背景而非关键物体。
在ICCV 2023会议上,某中心提出名为运动引导掩码(MGM)的新算法。该算法利用现代视频压缩编码中已有的运动向量(而非计算成本高昂的光流估计),生成跨帧追踪运动区域的掩码,确保掩码区域的语义一致性并提高重建任务难度。
技术原理
数字视频通常以24-30帧/秒速率播放。现代视频编解码器通过I帧、运动向量和残差实现压缩:运动向量记录8×8或16×16像素块在帧间的移动轨迹,仅需1/64传统图像存储空间。研究发现互联网视频数据集中前景区域运动幅度普遍高于背景,因此MGM将运动向量作为感兴趣区域的代理指标,对每帧中运动最显著的矩形区域进行掩码,要求模型重建这个被遮蔽的3D视频体积。
实验验证
与六种原有随机掩码方法相比,MGM在两项数据集评估中均表现更优。仅需三分之一训练数据即可匹配原有最佳方法的性能。在下游任务测试中,MGM生成的表征相比随机掩码基线最高提升5%准确率,证明运动引导能更有效捕捉视频语义信息。
技术优势
- 高效性:直接利用视频编码中的运动向量,避免实时计算光流
- 可扩展性:支持大规模视频模型的自我监督训练
- 语义一致性:通过跨帧追踪运动区域强化关键物体学习
该方法为视频表征学习提供了更高效的掩码策略,相关细节详见ICCV 2023论文《Motion-guided masking for spatiotemporal representation learning》。