多图像融合 on 办公AI智能小助手

多图像融合 on 办公AI智能小助手 https://blog.qife122.com/tags/%E5%A4%9A%E5%9B%BE%E5%83%8F%E8%9E%8D%E5%90%88/ Recent content in 多图像融合 on 办公AI智能小助手 Hugo zh-cn qife Wed, 24 Sep 2025 23:52:22 +0800 多图像输入视觉语言模型技术解析 https://blog.qife122.com/p/%E5%A4%9A%E5%9B%BE%E5%83%8F%E8%BE%93%E5%85%A5%E8%A7%86%E8%A7%89%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E6%8A%80%E6%9C%AF%E8%A7%A3%E6%9E%90/ Wed, 24 Sep 2025 23:52:22 +0800 https://blog.qife122.com/p/%E5%A4%9A%E5%9B%BE%E5%83%8F%E8%BE%93%E5%85%A5%E8%A7%86%E8%A7%89%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E6%8A%80%E6%9C%AF%E8%A7%A3%E6%9E%90/ <h1 id="多图像输入视觉语言模型技术解析">多图像输入视觉语言模型技术解析</h1> <h2 id="模型架构创新">模型架构创新</h2> <p>视觉语言模型通常将图像和文本映射到共同表征空间，但在传统架构中，每个文本输入仅对应单张图像。为解决多图像输入场景的局限性，研究人员提出了一种新型多重实例视觉组件（MIVC）。</p>