多语言大语言模型的自然性评估与改进
当前大语言模型(LLMs)主要以英语为设计核心,即使少数多语言模型也表现出强烈的英语中心偏差。如同第二语言学习者可能产生生硬表达,LLMs在非英语语言中常生成不自然的输出,反映在词汇和语法上的英语模式。尽管该问题至关重要,多语言LLM输出的自然性尚未获得足够关注。
本文通过引入创新的自动语料级指标,填补了这一空白,用于评估多语言语境下LLM输出的词汇和句法自然性。使用新指标,在法语和中文精选基准上评估了最先进的LLMs,揭示了倾向于英语影响模式的现象。
为缓解此问题,提出一种简单有效的对齐方法,以提升LLM在目标语言和领域的自然性,在通用基准性能不受影响的情况下,持续改善自然性。这项工作强调了为新一波多语言LLMs开发多语言指标、资源和方法的重要性。
评论:ACL 2025
学科分类:计算与语言(cs.CL);人工智能(cs.AI)