EOS之困:基于序列训练的精细图像描述生成
尽管视觉-语言模型(VLMs)取得了显著进展,图像描述生成仍常缺乏细节,基础模型往往产生简短、通用的描述。这种局限性持续存在,尽管VLMs配备了强大的视觉和语言骨干网络。虽然已有研究提出使用监督数据和复杂奖励函数来改进详细图像描述,但我们发现一个更根本的问题:在交叉熵训练过程中引入的序列结束(EOS)令牌偏差。
我们提出一种无监督方法来修正模型过早预测EOS令牌的倾向。通过减少这种偏差,无需复杂奖励函数或监督即可促进生成长度更长、细节更丰富的描述。该方法简单有效,可轻松应用于任何预训练模型。
通过在三个VLMs和三个精细描述基准测试上的实验,我们证明了该方法的有效性。结果显示描述长度和相关细节显著增加,尽管幻觉率也有预期中的上升。
实验设计:
- 使用三种主流视觉-语言模型架构
- 在COCO、NoCaps和Localized Narratives数据集测试
- 定量评估指标包括描述长度、CIDEr分数和幻觉率
关键发现:
- 平均描述长度增加35%
- 相关实体提及频率提升28%
- 幻觉现象同比增加12%
该方法为改进视觉-语言模型的细节生成能力提供了新的技术路径,特别是在无监督场景下具有显著应用价值。