大语言模型语言多样性基准测试

大型语言模型（LLMs）的开发和评估主要集中于其任务解决能力，近期模型在某些领域甚至超越了人类表现。然而，这种关注往往忽略了机器生成语言是否在词汇选择、句法结构和意义表达方面达到人类水平的多样性，这引发了对语言生成基础问题是否得到充分解决的质疑。

鉴于在线内容由LLMs生成或辅助的数量激增，本文强调检验语言模型保留人类语言丰富性的重要性。我们提出了一个综合框架，从词汇、句法和语义等多个语言多样性维度评估LLMs。

使用该框架，我们在所有多样性维度上对多个最先进的LLMs进行了基准测试，并针对句法多样性进行了深入案例研究。最后，我们分析了不同开发和部署选择如何影响LLM输出的语言多样性。

研究维度：

方法论：通过设计系统的评估指标和测试集，对主流LLMs进行横向对比分析，揭示各模型在保持语言多样性方面的表现差异。

应用价值：该研究为LLMs的语言生成质量提供了新的评估视角，有助于推动开发更加自然、多样且符合人类语言特性的语言模型。