利用LLM隐藏状态挖掘内在奖励实现高效最佳N采样

通过最佳N采样（best-of-N sampling）提升大语言模型（LLM）性能的方法虽有效但计算成本高昂，主要因为基于文本的奖励模型需要大量数据。通过将数据源从文本改为隐藏状态，提出了一种新颖的轻量级技术SWIFT（Simple Weighted Intrinsic Feedback Technique），利用嵌入在LLM隐藏状态中的丰富信息来解决这些问题。

SWIFT在词元级别操作，仅由线性层组成。大量实验表明，SWIFT以不足基线模型0.005%的参数量超越基线性能，仅需少量训练样本即可实现显著效率提升。该技术展现出强大的可扩展性，可通过logits适用于某些闭源模型，并能与传统奖励模型结合获得额外性能提升，凸显了其实际应用价值。

主题分类：
机器学习（cs.LG）；人工智能（cs.AI）；计算与语言（cs.CL）；统计机器学习（stat.ML）

引用信息：
arXiv:2505.12225 [cs.LG]
https://doi.org/10.48550/arXiv.2505.12225

提交历史：

版本1：2025年5月18日
版本2：2025年7月29日（当前版本）

利用LLM隐藏状态挖掘内在奖励实现高效采样

本文提出SWIFT技术，通过从大语言模型隐藏状态中提取内在奖励信号，显著提升最佳N采样效率。该方法仅需线性层结构，参数量不足基线模型的0.005%，且兼容闭源模型，可与传统奖励模型结合获得额外性能提升。

利用LLM隐藏状态挖掘内在奖励实现高效最佳N采样