<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>奖励模型 on 办公AI智能小助手</title>
    <link>https://blog.qife122.com/tags/%E5%A5%96%E5%8A%B1%E6%A8%A1%E5%9E%8B/</link>
    <description>Recent content in 奖励模型 on 办公AI智能小助手</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>qife</copyright>
    <lastBuildDate>Wed, 17 Sep 2025 09:01:53 +0800</lastBuildDate>
    <atom:link href="https://blog.qife122.com/tags/%E5%A5%96%E5%8A%B1%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>利用LLM隐藏状态挖掘内在奖励实现高效采样</title>
      <link>https://blog.qife122.com/p/%E5%88%A9%E7%94%A8llm%E9%9A%90%E8%97%8F%E7%8A%B6%E6%80%81%E6%8C%96%E6%8E%98%E5%86%85%E5%9C%A8%E5%A5%96%E5%8A%B1%E5%AE%9E%E7%8E%B0%E9%AB%98%E6%95%88%E9%87%87%E6%A0%B7/</link>
      <pubDate>Wed, 17 Sep 2025 09:01:53 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E5%88%A9%E7%94%A8llm%E9%9A%90%E8%97%8F%E7%8A%B6%E6%80%81%E6%8C%96%E6%8E%98%E5%86%85%E5%9C%A8%E5%A5%96%E5%8A%B1%E5%AE%9E%E7%8E%B0%E9%AB%98%E6%95%88%E9%87%87%E6%A0%B7/</guid>
      <description>&lt;h1 id=&#34;利用llm隐藏状态挖掘内在奖励实现高效最佳n采样&#34;&gt;利用LLM隐藏状态挖掘内在奖励实现高效最佳N采样&lt;/h1&gt;&#xA;&lt;p&gt;通过最佳N采样（best-of-N sampling）提升大语言模型（LLM）性能的方法虽有效但计算成本高昂，主要因为基于文本的奖励模型需要大量数据。通过将数据源从文本改为隐藏状态，提出了一种新颖的轻量级技术SWIFT（Simple Weighted Intrinsic Feedback Technique），利用嵌入在LLM隐藏状态中的丰富信息来解决这些问题。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
