摘要
当前缺乏评估大语言模型(LLM)代码转换(CS)能力的方法论。现有方法存在语言覆盖窄、未涵盖多样CS现象或难以扩展的问题。研究提出基于CS最小对的干预方案:每组包含一个自然CS句及其最小变体。针对11种语言对收集各1000组数据,人类实验显示双语者始终偏好自然CS句;而LLM实验表明,模型规模越大,越倾向于为自然CS句分配更高概率。理论验证显示,最大概率差异出现在变体含封闭类词汇的组别中。
核心方法
-
最小对构建:
- 自然CS句来自真实语料,变体通过最小编辑(如替换封闭类词)生成
- 覆盖11种语言对,确保语法合法性
-
评估指标:
- 模型评估:对比LLM为两类句子分配的概率差异
-
实验发现:
- 所有语言对中,人类选择自然CS句的一致性达显著水平(p<0.01)
- GPT-4等大模型在70%以上案例中与人类偏好一致,较小模型(如GPT-2)仅达随机水平
理论意义
研究验证了"封闭类词主导CS决策"的假设,为LLM的跨语言建模能力提供可扩展的评估框架。ACL 2025收录成果。