基于最小对评估代码转换的LLM表现

摘要

当前缺乏评估大语言模型（LLM）代码转换（CS）能力的方法论。现有方法存在语言覆盖窄、未涵盖多样CS现象或难以扩展的问题。研究提出基于CS最小对的干预方案：每组包含一个自然CS句及其最小变体。针对11种语言对收集各1000组数据，人类实验显示双语者始终偏好自然CS句；而LLM实验表明，模型规模越大，越倾向于为自然CS句分配更高概率。理论验证显示，最大概率差异出现在变体含封闭类词汇的组别中。

核心方法

最小对构建：
- 自然CS句来自真实语料，变体通过最小编辑（如替换封闭类词）生成
- 覆盖11种语言对，确保语法合法性
评估指标：
- 模型评估：对比LLM为两类句子分配的概率差异
实验发现：
- 所有语言对中，人类选择自然CS句的一致性达显著水平（p<0.01）
- GPT-4等大模型在70%以上案例中与人类偏好一致，较小模型（如GPT-2）仅达随机水平

理论意义

研究验证了"封闭类词主导CS决策"的假设，为LLM的跨语言建模能力提供可扩展的评估框架。ACL 2025收录成果。