多模态大模型跨语言一致性基准测试

本文介绍KnowRecall和VisRecall两个新基准,用于评估多模态大语言模型在15种语言中的事实知识一致性和9种语言中的视觉记忆一致性,揭示当前先进模型在跨语言一致性方面的挑战与改进需求。

跨越语言的旅程:多模态大语言模型中的跨语言一致性基准测试

多模态大语言模型(MLLMs)的快速发展显著增强了其实际应用能力。然而,在不同语言间实现一致性能,尤其是在整合文化知识时,仍然是一个重大挑战。为更好地评估这一问题,引入了两个新基准:KnowRecall和VisRecall,用于评估MLLMs的跨语言一致性。

KnowRecall是一个视觉问答基准,旨在衡量15种语言中的事实知识一致性,重点关注关于全球地标的文化和历史问题。VisRecall通过要求模型在无法访问图像的情况下用9种语言描述地标外观,来评估视觉记忆一致性。

实验结果表明,包括专有模型在内的最先进MLLMs仍然难以实现跨语言一致性。这突显了需要更强大的方法来产生真正多语言且具有文化意识的模型。

评论:
相关讨论可参考此链接。

学科分类:
计算与语言(cs.CL);人工智能(cs.AI);计算机视觉与模式识别(cs.CV);机器学习(cs.LG)

引用为:
arXiv:2505.15075 [cs.CL]
(或 arXiv:2505.15075v4 [cs.CL] 此版本)
DOI: https://doi.org/10.48550/arXiv.2505.15075

提交历史:

  • v1: 2025年5月21日星期三 03:43:37 UTC (19,625 KB)
  • v2: 2025年7月3日星期四 10:35:35 UTC (5,625 KB)
  • v3: 2025年7月15日星期二 08:54:19 UTC (5,625 KB)
  • v4: 2025年7月26日星期六 14:15:44 UTC (9,303 KB)

全文链接:

  • 查看论文PDF
  • HTML(实验性)
  • TeX源码
  • 其他格式

相关工具与资源:
包括文献浏览器、关联论文、智能引用、代码与数据链接、演示项目等。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计