利用LLM隐藏状态挖掘内在奖励实现高效采样

Wed, 17 Sep 2025 09:01:53 +0800

利用LLM隐藏状态挖掘内在奖励实现高效最佳N采样

通过最佳N采样（best-of-N sampling）提升大语言模型（LLM）性能的方法虽有效但计算成本高昂，主要因为基于文本的奖励模型需要大量数据。通过将数据源从文本改为隐藏状态，提出了一种新颖的轻量级技术SWIFT（Simple Weighted Intrinsic Feedback Technique），利用嵌入在LLM隐藏状态中的丰富信息来解决这些问题。

奖励模型 on 办公AI智能小助手

利用LLM隐藏状态挖掘内在奖励实现高效采样

利用LLM隐藏状态挖掘内在奖励实现高效最佳N采样