使用自然语言描述搜索视频
在理想情况下,找到视频的特定片段应该像用自然语言描述一样简单——例如说"某人将配料倒入搅拌机"。在今年ACM信息检索特别兴趣小组(SIGIR)会议上,我们提出了一种新的自然语言引导视频时刻检索方法。
我们的方法摒弃了先前一些模型采用的复杂迭代消息传递流程,从而减少了训练时间。在一次实验中,我们的模型在相同数据和硬件上的训练时间仅为先前最优模型的三分之一。同时,我们的模型性能优于先前模型,在相关指标和数据集上实现了最高11%的相对提升。
核心技术特点
早期融合/交叉注意力
先前的一些模型使用"后期融合",即视频片段和查询在表示空间中独立嵌入,然后模型根据某种度量距离选择最接近查询的视频片段。我们采用了早期融合方法,其中查询和视频片段的嵌入以交叉协调的方式确定。在先前的一些早期融合方法使用迭代消息传递进行交叉协调的地方,我们使用了更简单的交叉注意力机制。
多任务训练
我们同时在两个任务上训练模型:一个是识别视频序列的起始点和停止点;另一个是将这些点之间的每一帧进行二元分类,判断是否属于该序列。标注者之间的分歧(即训练数据中标识的起始和停止时间存在差异)可能会降低模型准确性;二元分类任务利用了片段帧标注的连续性,从而纠正了训练数据中的不平衡。
技术实现细节
交叉注意力机制
在过去,自然语言视频时刻检索模型将查询文本和视频帧序列都表示为图。这些模型通过消息传递方案找出文本词语和序列帧之间的对应关系,其中文本图的每个节点向视频图的多个节点发送消息,反之亦然。
在我们的模型中,我们首先对查询和候选视频片段进行编码,然后使用交叉交互多头注意力机制来识别查询编码的哪些特征与视频编码最相关,反之亦然。
基于这种交叉交互,模型输出一个考虑查询方面的视频嵌入,以及一个考虑视频方面的查询嵌入。这些嵌入被连接起来产生单个融合嵌入,然后传递给两个独立的分类器:一个分类器识别起始/停止点,另一个分类器将视频帧分类为相关片段的一部分或不是。
实验评估
为了测试我们的方法,我们使用了两个基准数据集,这两个数据集都包含了一些帧已用描述性文本标注的视频。我们将我们的方法与五个先前模型进行了比较,其中三个模型曾达到最优结果。
我们使用交并比评估模型性能,即正确标记的视频片段帧数与模型或数据集中标记为属于该片段的总帧数之比。当满足某个交并比阈值时,定义为正确检索。我们试验了三个阈值:0.3、0.5和0.7。
在六个实验中(两个数据集和三个交并比阈值),我们的方法在五次实验中优于所有先前模型。在第六种情况下,一个先前模型略有优势(相对改进1%)。但在我们的模型显示最大增益的实验中,该相同模型比我们的模型低37%。
该研究模型具有两个创新点:(1) “早期融合"交叉注意力机制,使模型对文本查询的表示以视频序列为条件,反之亦然;(2) 同时在两个任务上进行训练,即估计起始点和停止点,以及将视频帧二元分类为属于目标序列或不属于。