利用LLM隐藏状态挖掘内在奖励实现高效采样

本文提出SWIFT技术,通过从大语言模型隐藏状态中提取内在奖励信号,显著提升最佳N采样效率。该方法仅需线性层结构,参数量不足基线模型的0.005%,且兼容闭源模型,可与传统奖励模型结合获得额外性能提升。

利用LLM隐藏状态挖掘内在奖励实现高效最佳N采样

通过最佳N采样(best-of-N sampling)提升大语言模型(LLM)性能的方法虽有效但计算成本高昂,主要因为基于文本的奖励模型需要大量数据。通过将数据源从文本改为隐藏状态,提出了一种新颖的轻量级技术SWIFT(Simple Weighted Intrinsic Feedback Technique),利用嵌入在LLM隐藏状态中的丰富信息来解决这些问题。

SWIFT在词元级别操作,仅由线性层组成。大量实验表明,SWIFT以不足基线模型0.005%的参数量超越基线性能,仅需少量训练样本即可实现显著效率提升。该技术展现出强大的可扩展性,可通过logits适用于某些闭源模型,并能与传统奖励模型结合获得额外性能提升,凸显了其实际应用价值。

主题分类
机器学习(cs.LG);人工智能(cs.AI);计算与语言(cs.CL);统计机器学习(stat.ML)

引用信息
arXiv:2505.12225 [cs.LG]
https://doi.org/10.48550/arXiv.2505.12225

提交历史

  • 版本1:2025年5月18日
  • 版本2:2025年7月29日(当前版本)
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计