在理想情况下,查找视频中的特定片段应当像用自然语言描述那样简单——例如说出"某人将原料倒入搅拌机"这样的指令。某中心科研团队在国际计算机学会信息检索专委会年会(SIGIR 2021)上提出了一种创新的自然语言引导视频片段检索(VMR)方法。该技术摒弃了传统复杂的迭代消息传递机制,在相同数据和硬件条件下,训练耗时仅为现有最优模型的1/3,同时在标准测试集上实现了最高11%的性能提升。
核心技术突破:
-
早期融合/交叉注意力机制
不同于后期融合方案(先独立编码视频与查询再计算相似度),该模型采用早期融合策略,通过多头注意力机制动态协调文本查询与视频片段的特征表示。这种轻量级的交叉注意力模块替代了传统耗时的迭代消息传递过程。 -
多任务联合训练
模型同步优化两个子任务:- 视频片段起止点定位
- 逐帧二分类(判断是否属于目标片段) 该设计有效缓解了训练数据中标注不一致(annotator disagreement)问题,通过利用片段内帧标注的连续性特征来修正数据偏差。
技术实现细节:
模型首先分别编码查询文本和候选视频片段,随后通过交叉交互多头注意力机制识别文本特征与视频特征的关键关联。基于此生成融合了双方信息的联合嵌入表示,最终输入两个分类器:
- 片段边界检测分类器
- 帧级二分类器
实验验证:
在两大基准数据集上,采用交并比(IoU)作为评估指标(设定0.3/0.5/0.7三个阈值)。新方法在六项测试中五项超越所有基线模型,仅在单一测试中以1%微弱差距次于某对比模型,而在优势场景中最大领先幅度达37%。
图示:早期融合的交叉注意力机制(左)与多任务训练框架(右)