清单工程赋能多语言大模型评估
自动文本评估长期以来一直是自然语言处理(NLP)的核心问题。近年来,该领域已转向使用大语言模型(LLMs)作为评估器——这一趋势被称为"LLM即裁判"范式。虽然这种方法前景广阔且易于跨任务适配,但在多语言环境中的探索仍然有限。现有的多语言研究通常依赖专有模型或需要大量训练数据进行微调,引发了成本、时间和效率方面的担忧。
本文提出基于清单工程的LLM即裁判(CE-Judge),这是一个免训练的框架,利用清单直觉与开源模型进行多语言评估。在多种语言和三个基准数据集上的实验表明,无论是在点对点还是成对设置下,该方法通常都超越了基线模型,并且与GPT-4o模型的性能相当。