VideoPrism：通用视频理解基础视觉编码器

网络上存在海量视频，涵盖从日常分享到历史时刻和科学观察的多样内容，每个视频都包含对世界的独特记录。合适的工具可以帮助研究人员分析这些视频，从而改变我们对世界的理解方式。

视频提供比静态图像更丰富的动态视觉内容，捕捉运动、变化和实体之间的动态关系。分析这种复杂性以及公开视频数据的巨大多样性，需要超越传统图像理解的模型。因此，许多在视频理解上表现最佳的方法仍依赖于为特定任务定制的专用模型。最近，使用视频基础模型（ViFMs）如VideoCLIP、InternVideo、VideoCoCa和UMT在这一领域取得了令人兴奋的进展。然而，构建一个能够处理视频数据巨大多样性的ViFM仍然是一个挑战。

为了构建一个通用视频理解的单一模型，我们引入了“VideoPrism：视频理解的基础视觉编码器”。VideoPrism是一种ViFM，旨在处理广泛的视频理解任务，包括分类、定位、检索、字幕生成和问答（QA）。我们在预训练数据和建模策略上都提出了创新。我们在一个大规模多样化数据集上预训练VideoPrism：3600万个高质量视频-文本对和5.82亿个带有噪声或机器生成并行文本的视频片段。我们的预训练方法专为这种混合数据设计，从视频-文本对和视频本身学习。VideoPrism非常容易适应新的视频理解挑战，并使用单一冻结模型实现最先进的性能。

VideoPrism是一种通用视频编码器，通过单一冻结模型生成视频表示，在广泛的视频理解任务（包括分类、定位、检索、字幕生成和问答）中实现最先进的结果。

预训练数据

强大的ViFM需要非常大的视频集合进行训练——类似于其他基础模型（FMs），如大型语言模型（LLMs）。理想情况下，我们希望预训练数据是世界所有视频的代表性样本。虽然自然大多数这些视频没有完美的字幕或描述，但即使不完美的文本也能提供有关视频语义内容的有用信息。

为了给我们的模型提供最佳起点，我们构建了一个大规模的预训练语料库，包括多个公共和私有数据集，如YT-Temporal-180M、InternVid、VideoCC、WTS-70M等。这包括3600万个精心挑选的带有高质量字幕的视频，以及额外的5.82亿个带有不同程度噪声文本（如自动生成转录）的片段。据我们所知，这是同类最大和最多样化的视频训练语料库。

[视频-文本预训练数据的统计。CLIP相似性分数（越高越好）的大幅变化展示了我们预训练数据字幕质量的多样性，这是各种文本收集方法的副产品。]

两阶段训练

VideoPrism模型架构源于标准视觉变换器（ViT），采用因子化设计，遵循ViViT顺序编码空间和时间信息。我们的训练方法利用上述高质量视频-文本数据和带有噪声文本的视频数据。首先，我们使用对比学习（一种最小化正视频-文本对距离同时最大化负视频-文本对距离的方法）教导我们的模型匹配视频与其自身文本描述，包括不完美的描述。这为将语义语言内容与视觉内容匹配奠定了基础。

在视频-文本对比训练之后，我们利用没有文本描述的视频集合。在这里，我们基于掩码视频建模框架预测视频中的掩码补丁，并进行一些改进。我们训练模型预测第一阶段模型的视频级全局嵌入和令牌级嵌入，以有效利用该阶段获得的知识。然后我们随机打乱预测的令牌以防止模型学习捷径。

VideoPrism设置的独特之处在于我们使用两个互补的预训练信号：文本描述和视频内的视觉内容。文本描述通常关注事物的外观，而视频内容提供关于运动和视觉动态的信息。这使得VideoPrism在需要理解外观和运动的任务中表现出色。

结果

我们在四大类视频理解任务上对VideoPrism进行了广泛评估，包括视频分类和定位、视频-文本检索、视频字幕生成、问答以及科学视频理解。VideoPrism在33个视频理解基准中的30个上实现了最先进的性能——所有这些都是通过单一冻结模型的最小适应实现的。

[VideoPrism与先前最佳性能FMs的比较。]

分类和定位

我们在现有的大规模视频理解基准（VideoGLUE）上评估VideoPrism，涵盖分类和定位任务。我们发现（1）VideoPrism优于所有其他最先进的FMs，并且（2）没有其他单一模型 consistently排名第二。这告诉我们VideoPrism已学会将各种视频信号有效打包到一个编码器中——从不同粒度的语义到外观和运动线索——并且它在各种视频源上表现良好。

[VideoPrism在视频理解基准上优于最先进方法（包括CLIP、VATT、InternVideo和UMT）。在此图中，我们显示与先前最佳模型的绝对分数差异以突出VideoPrism的相对改进。在Charades、ActivityNet、AVA和AVA-K上，我们使用平均平均精度（mAP）作为评估指标。在其他数据集上，我们报告top-1准确率。]

与LLMs结合

我们进一步探索将VideoPrism与LLMs结合以解锁其处理各种视频-语言任务的能力。特别是，当与文本编码器（遵循LiT）或语言解码器（如PaLM-2）配对时，VideoPrism可用于视频-文本检索、视频字幕生成和视频QA任务。我们在广泛且具有挑战性的视觉-语言基准集上比较组合模型。VideoPrism在大多数基准上设定了新的最先进水平。从视觉结果中，我们发现VideoPrism能够理解视频中的复杂运动和外观（例如，模型可以识别下面视觉示例中窗户上旋转物体的不同颜色）。这些结果表明VideoPrism与语言模型 strongly兼容。

[VideoPrism在多个视频-文本检索（顶部）和视频字幕生成及视频QA（底部）基准上与最先进方法（包括VideoCoCa、UMT和Flamingo）相比具有竞争力的结果。我们还显示与先前最佳模型的绝对分数差异以突出VideoPrism的相对改进。我们在MASRVTT、VATEX和ActivityNet上报告Recall@1，在MSRVTT-Cap、VATEX-Cap和YouCook2上报告CIDEr分数，在MSRVTT-QA和MSVD-QA上报告top-1准确率，在NExT-QA上报告WUPS指数。]

[我们展示使用VideoPrism与文本编码器进行视频-文本检索（第一行）和适应语言解码器进行视频QA（第二和第三行）的定性结果。对于视频-文本检索示例，蓝色条表示视频和文本查询之间的嵌入相似性。]

科学应用

最后，我们在科学家跨领域使用的数据集上测试VideoPrism，包括行为学、行为神经科学和生态学等领域。这些数据集通常需要领域专业知识进行注释，为此我们利用社区开源的科学数据集，包括Fly vs. Fly、CalMS21、ChimpACT和KABR。VideoPrism不仅表现异常出色，而且实际上超越了专为这些任务设计的模型。这表明像VideoPrism这样的工具有潜力改变科学家跨不同领域分析视频数据的方式。

[VideoPrism在各种科学基准上优于领域专家。我们显示绝对分数差异以突出VideoPrism的相对改进。除KABR使用类平均top-1准确率外，所有数据集均报告平均平均精度（mAP）。]

结论

通过VideoPrism，我们引入了一个强大且多功能的视频编码器，为通用视频理解设定了新标准。我们对构建大规模多样化预训练数据集和创新建模技术的强调已通过广泛评估得到验证。VideoPrism不仅 consistently优于强基线，而且其独特的泛化能力使其 well positioned 应对一系列现实世界应用。由于其潜在的广泛用途，我们致力于在我们的AI原则指导下继续进一步负责任的研究。我们希望VideoPrism为AI和视频分析交叉领域的未来突破铺平道路，帮助实现ViFMs在科学发现、教育和医疗等领域的潜力。

致谢

此博客文章代表所有VideoPrism作者：Long Zhao、Nitesh B. Gundavarapu、Liangzhe Yuan、Hao Zhou、Shen Yan、Jennifer J. Sun、Luke Friedman、Rui Qian、Tobias Weyand、Yue Zhao、Rachel Hornung、Florian Schroff、Ming-Hsuan Yang、David A. Ross、Huisheng Wang、Hartwig Adam、Mikhail Sirotenko、Ting Liu和Boqing Gong。我们衷心感谢David Hendon的产品管理工作，以及Alex Siegman、Ramya Ganeshan和Victor Gomes的项目和资源管理工作。我们还感谢Hassan Akbari、Sherry Ben、Yoni Ben-Meshulam、Chun-Te Chu、Sam Clearwater、Yin Cui、Ilya Figotin、Anja Hauth、Sergey Ioffe、Xuhui Jia、Yeqing Li、Lu Jiang、Zu Kim、Dan Kondratyuk、Bill Mark、Arsha Nagrani、Caroline Pantofaru、Sushant Prakash、Cordelia Schmid、Bryan Seybold、Mojtaba Seyedhosseini、Amanda Sadler、Rif A. Saurous、Rachel Stigler、Paul Voigtlaender、Pingmei Xu、Chaochao Yan、Xuan Yang和Yukun Zhu的讨论、支持和反馈，这些 greatly contributed 于此工作。我们感谢Jay Yagnik、Rahul Sukthankar和Tomas Izo对此项目的热情支持。最后，我们感谢Tom Small、Jennifer J. Sun、Hao Zhou、Nitesh B. Gundavarapu、Luke Friedman和Mikhail Sirotenko在制作此博客文章方面的巨大帮助。