IQ Test for LLMs: 揭示大语言模型核心技能的评估框架

摘要

当前大语言模型（LLMs）的评估依赖于基准测试分数，但很难解读这些分数究竟反映了模型的哪些整体能力。研究界缺乏对任务关联性、共同测量维度、差异性和冗余性的理解。因此，模型通常通过跨基准的平均分数进行评估，这种方法无法全面捕捉模型的整体优势和局限。

本文提出了一种新的评估范式，使用因子分析来识别跨基准表现背后的潜在技能。该方法应用于一个包含60个LLMs在44项任务表现的综合新排行榜，识别出一小组能够主要解释性能的关键潜在技能。最终将这些洞察转化为实用工具，可用于识别冗余任务、辅助模型选择，以及沿各潜在技能分析模型特性。

通过因子分析技术从多任务表现数据中提取潜在变量，这些变量代表模型的核心能力维度。分析基于60个不同规模架构的模型在44项自然语言处理任务上的表现数据。

研究发现仅需少量潜在技能（约5-7个核心维度）即可解释大部分模型性能差异。这些技能维度包括语言理解、逻辑推理、知识应用等关键能力范畴。

通过分析任务在潜在技能空间中的载荷，识别出多个基准任务实际上测量的是相同的能力维度，存在显著冗余现象。

提供基于技能维度的模型对比工具，使使用者能够根据特定需求选择在相应技能维度上表现最优的模型。

为每个模型生成详细的能力剖面图，展示在各核心技能维度上的相对强弱，取代简单的单一分数评估。

该评估框架为LLM评估提供了更细致、可解释的方法，有助于研究者更好地理解模型能力构成，并为实际应用中的模型选择提供科学依据。未来工作将扩展技能维度识别并探索跨领域的能力迁移特性。