多语言大语言模型的自然性评估与改进

当前大语言模型（LLMs）主要以英语为设计核心，即使少数多语言模型也表现出强烈的英语中心偏差。如同第二语言学习者可能产生生硬表达，LLMs在非英语语言中常生成不自然的输出，反映在词汇和语法上的英语模式。尽管该问题至关重要，多语言LLM输出的自然性尚未获得足够关注。

本文通过引入创新的自动语料级指标，填补了这一空白，用于评估多语言语境下LLM输出的词汇和句法自然性。使用新指标，在法语和中文精选基准上评估了最先进的LLMs，揭示了倾向于英语影响模式的现象。

为缓解此问题，提出一种简单有效的对齐方法，以提升LLM在目标语言和领域的自然性，在通用基准性能不受影响的情况下，持续改善自然性。这项工作强调了为新一波多语言LLMs开发多语言指标、资源和方法的重要性。