基于最小对评估代码转换的LLM表现

本文提出一种基于最小对干预的方法,评估大语言模型在11种语言对中的代码转换能力。通过对比自然代码转换句与人工变体,发现模型规模越大越能复现人类双语者的偏好,尤其在封闭类词汇上差异显著。

摘要

当前缺乏评估大语言模型(LLM)代码转换(CS)能力的方法论。现有方法存在语言覆盖窄、未涵盖多样CS现象或难以扩展的问题。研究提出基于CS最小对的干预方案:每组包含一个自然CS句及其最小变体。针对11种语言对收集各1000组数据,人类实验显示双语者始终偏好自然CS句;而LLM实验表明,模型规模越大,越倾向于为自然CS句分配更高概率。理论验证显示,最大概率差异出现在变体含封闭类词汇的组别中。

核心方法

  1. 最小对构建

    • 自然CS句来自真实语料,变体通过最小编辑(如替换封闭类词)生成
    • 覆盖11种语言对,确保语法合法性
  2. 评估指标

    • 模型评估:对比LLM为两类句子分配的概率差异
  3. 实验发现

    • 所有语言对中,人类选择自然CS句的一致性达显著水平(p<0.01)
    • GPT-4等大模型在70%以上案例中与人类偏好一致,较小模型(如GPT-2)仅达随机水平

理论意义

研究验证了"封闭类词主导CS决策"的假设,为LLM的跨语言建模能力提供可扩展的评估框架。ACL 2025收录成果。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计