并行编码提升视觉语言模型视频处理效率

PEVLM提出了一种免微调的并行编码方法,通过分割视频为上下文块并保留顺序位置嵌入,将注意力复杂度从二次降为线性,在长视频理解任务中实现7.47倍加速和40%延迟降低,同时保持甚至超越全注意力机制的精度。

PEVLM:视觉语言模型的并行编码方法

视觉语言模型(VLMs)在多模态理解和生成任务中展现出强大能力,但其在长视频理解中的应用仍受限于标准注意力机制的二次复杂度。本研究提出PEVLM,一种免微调的并行编码方法,旨在提升VLMs在长视频场景下的预填充效率。

核心方法

PEVLM将输入视频分割为包含共享汇聚块(sink block)的上下文块,同时保留顺序位置嵌入,使注意力权重分布与全注意力机制保持一致。该设计将注意力复杂度从$O(N^2)$降至$O(N)$(其中$N$为帧数,$M$为每帧标记数),且不牺牲准确性。

实验结果

在多组前沿模型和基准测试中,PEVLM持续优于现有并行编码方法:

  • 注意力计算速度提升7.47倍
  • 端到端延迟降低40%
  • 在严格延迟约束下,准确率从23.26%提升至61.03%
  • 部分场景下甚至超越全注意力机制性能

应用价值

该方法为低延迟、长上下文视频理解提供了有效解决方案,具备实际应用潜力。实验结果表明,PEVLM在保持高精度的同时显著提升计算效率,为实时视频处理任务开辟了新路径。


comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计