利用LLM隐藏状态挖掘内在奖励实现高效最佳N采样
通过最佳N采样(best-of-N sampling)提升大语言模型(LLM)性能的方法虽有效但计算成本高昂,主要因为基于文本的奖励模型需要大量数据。通过将数据源从文本改为隐藏状态,提出了一种新颖的轻量级技术SWIFT(Simple Weighted Intrinsic Feedback Technique),利用嵌入在LLM隐藏状态中的丰富信息来解决这些问题。
SWIFT在词元级别操作,仅由线性层组成。大量实验表明,SWIFT以不足基线模型0.005%的参数量超越基线性能,仅需少量训练样本即可实现显著效率提升。该技术展现出强大的可扩展性,可通过logits适用于某些闭源模型,并能与传统奖励模型结合获得额外性能提升,凸显了其实际应用价值。
主题分类:
机器学习(cs.LG);人工智能(cs.AI);计算与语言(cs.CL);统计机器学习(stat.ML)
引用信息:
arXiv:2505.12225 [cs.LG]
https://doi.org/10.48550/arXiv.2505.12225
提交历史:
- 版本1:2025年5月18日
- 版本2:2025年7月29日(当前版本)