自然语言视频片段检索新方法

本文提出了一种基于交叉注意力和多任务训练的视频片段检索新方法,相比现有技术训练时间减少2/3,准确率最高提升11%。该方法通过早期融合机制协调文本查询与视频片段的嵌入表示,并同时优化片段定位与帧分类两个任务。