PEVLM:视觉语言模型的并行编码方法
视觉语言模型(VLMs)在多模态理解和生成任务中展现出强大能力,但其在长视频理解中的应用仍受限于标准注意力机制的二次复杂度。本研究提出PEVLM,一种免微调的并行编码方法,旨在提升VLMs在长视频场景下的预填充效率。
核心方法
PEVLM将输入视频分割为包含共享汇聚块(sink block)的上下文块,同时保留顺序位置嵌入,使注意力权重分布与全注意力机制保持一致。该设计将注意力复杂度从$O(N^2)$降至$O(N)$(其中$N$为帧数,$M$为每帧标记数),且不牺牲准确性。
实验结果
在多组前沿模型和基准测试中,PEVLM持续优于现有并行编码方法:
- 注意力计算速度提升7.47倍
- 端到端延迟降低40%
- 在严格延迟约束下,准确率从23.26%提升至61.03%
- 部分场景下甚至超越全注意力机制性能
应用价值
该方法为低延迟、长上下文视频理解提供了有效解决方案,具备实际应用潜力。实验结果表明,PEVLM在保持高精度的同时显著提升计算效率,为实时视频处理任务开辟了新路径。