并行编码提升视觉语言模型视频处理效率

PEVLM提出了一种免微调的并行编码方法，通过分割视频为上下文块并保留顺序位置嵌入，将注意力复杂度从二次降为线性，在长视频理解任务中实现7.47倍加速和40%延迟降低，同时保持甚至超越全注意力机制的精度。

PEVLM：视觉语言模型的并行编码方法

视觉语言模型（VLMs）在多模态理解和生成任务中展现出强大能力，但其在长视频理解中的应用仍受限于标准注意力机制的二次复杂度。本研究提出PEVLM，一种免微调的并行编码方法，旨在提升VLMs在长视频场景下的预填充效率。

核心方法

PEVLM将输入视频分割为包含共享汇聚块（sink block）的上下文块，同时保留顺序位置嵌入，使注意力权重分布与全注意力机制保持一致。该设计将注意力复杂度从$O(N^2)$降至$O(N)$（其中$N$为帧数，$M$为每帧标记数），且不牺牲准确性。

实验结果

在多组前沿模型和基准测试中，PEVLM持续优于现有并行编码方法：

注意力计算速度提升7.47倍
端到端延迟降低40%
在严格延迟约束下，准确率从23.26%提升至61.03%
部分场景下甚至超越全注意力机制性能

应用价值

该方法为低延迟、长上下文视频理解提供了有效解决方案，具备实际应用潜力。实验结果表明，PEVLM在保持高精度的同时显著提升计算效率，为实时视频处理任务开辟了新路径。

comments powered by Disqus