<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>LLM评估 on 办公AI智能小助手</title>
    <link>https://blog.qife122.com/tags/llm%E8%AF%84%E4%BC%B0/</link>
    <description>Recent content in LLM评估 on 办公AI智能小助手</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>qife</copyright>
    <lastBuildDate>Tue, 25 Nov 2025 13:50:29 +0800</lastBuildDate>
    <atom:link href="https://blog.qife122.com/tags/llm%E8%AF%84%E4%BC%B0/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>使用Spring AI构建LLM自我评估系统：基于递归顾问的LLM-as-a-Judge实现</title>
      <link>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8spring-ai%E6%9E%84%E5%BB%BAllm%E8%87%AA%E6%88%91%E8%AF%84%E4%BC%B0%E7%B3%BB%E7%BB%9F%E5%9F%BA%E4%BA%8E%E9%80%92%E5%BD%92%E9%A1%BE%E9%97%AE%E7%9A%84llm-as-a-judge%E5%AE%9E%E7%8E%B0/</link>
      <pubDate>Tue, 25 Nov 2025 13:50:29 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8spring-ai%E6%9E%84%E5%BB%BAllm%E8%87%AA%E6%88%91%E8%AF%84%E4%BC%B0%E7%B3%BB%E7%BB%9F%E5%9F%BA%E4%BA%8E%E9%80%92%E5%BD%92%E9%A1%BE%E9%97%AE%E7%9A%84llm-as-a-judge%E5%AE%9E%E7%8E%B0/</guid>
      <description>&lt;h1 id=&#34;llm响应评估与spring-ai使用递归顾问构建llm-as-a-judge&#34;&gt;LLM响应评估与Spring AI：使用递归顾问构建LLM-as-a-Judge&lt;/h1&gt;&#xA;&lt;p&gt;评估大型语言模型（LLM）输出的挑战对于 notoriously 非确定性的AI应用至关重要，特别是当它们进入生产环境时。像ROUGE和BLEU这样的传统指标在评估现代LLM产生的细致入微、上下文相关的响应时显得不足。人工评估虽然准确，但成本高、速度慢且无法扩展。&lt;/p&gt;</description>
    </item>
    <item>
      <title>谁在监督评估者？LLM评估LLM的技术探索</title>
      <link>https://blog.qife122.com/p/%E8%B0%81%E5%9C%A8%E7%9B%91%E7%9D%A3%E8%AF%84%E4%BC%B0%E8%80%85llm%E8%AF%84%E4%BC%B0llm%E7%9A%84%E6%8A%80%E6%9C%AF%E6%8E%A2%E7%B4%A2/</link>
      <pubDate>Wed, 12 Nov 2025 02:39:16 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E8%B0%81%E5%9C%A8%E7%9B%91%E7%9D%A3%E8%AF%84%E4%BC%B0%E8%80%85llm%E8%AF%84%E4%BC%B0llm%E7%9A%84%E6%8A%80%E6%9C%AF%E6%8E%A2%E7%B4%A2/</guid>
      <description>&lt;h1 id=&#34;谁在监督评估者llm对llm评估的技术探索&#34;&gt;谁在监督评估者？LLM对LLM评估的技术探索&lt;/h1&gt;&#xA;&lt;p&gt;虽然使用LLM来评判其他LLM的输出可能看起来像是让狐狸看守鸡舍，但事实证明这种方法效果相当不错（而且比人工评估更具扩展性）。&lt;/p&gt;&#xA;&lt;p&gt;随着生成式AI被更广泛地应用，特别是在生产应用程序中，工程师们正在思考如何使他们的应用程序更加可靠。随着开发人员使用LLM并对其更加熟悉，他们意识到不能盲目信任这些模型的输出。我们2025年的开发者调查发现，AI的采用率正在增加，而对AI的信任度和好感度却在下降。光环已经褪去，因此工程团队正在寻求建立机制来构建可信赖的系统。&lt;/p&gt;</description>
    </item>
    <item>
      <title>大语言模型如何评估大语言模型？LLM评估技术深度解析</title>
      <link>https://blog.qife122.com/p/%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%A6%82%E4%BD%95%E8%AF%84%E4%BC%B0%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8Bllm%E8%AF%84%E4%BC%B0%E6%8A%80%E6%9C%AF%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90/</link>
      <pubDate>Thu, 06 Nov 2025 00:02:14 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%A6%82%E4%BD%95%E8%AF%84%E4%BC%B0%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8Bllm%E8%AF%84%E4%BC%B0%E6%8A%80%E6%9C%AF%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90/</guid>
      <description>&lt;h1 id=&#34;谁来看守看守者llm在llm评估中的应用&#34;&gt;谁来看守看守者？LLM在LLM评估中的应用&lt;/h1&gt;&#xA;&lt;p&gt;虽然使用LLM来评判LLM输出可能看起来像是让狐狸看守鸡舍，但事实证明这种方法效果相当不错（而且比人类评估更具扩展性）。&lt;/p&gt;&#xA;&lt;p&gt;随着生成式AI得到更广泛的应用，特别是在生产环境中，工程师们正在思考如何使他们的应用程序更加可靠。随着开发人员使用LLM并对其更加熟悉，他们意识到不能盲目信任这些模型产生的内容。我们2025年的开发者调查发现，AI采用率正在增加，而对AI的信任和好感度却在下降。新鲜感已经消退，因此工程团队现在正在寻求建立机制来构建可信赖的系统。&lt;/p&gt;</description>
    </item>
    <item>
      <title>大语言模型评估大语言模型：AI如何自我监督？</title>
      <link>https://blog.qife122.com/p/%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E8%AF%84%E4%BC%B0%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8Bai%E5%A6%82%E4%BD%95%E8%87%AA%E6%88%91%E7%9B%91%E7%9D%A3/</link>
      <pubDate>Mon, 27 Oct 2025 09:44:35 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E8%AF%84%E4%BC%B0%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8Bai%E5%A6%82%E4%BD%95%E8%87%AA%E6%88%91%E7%9B%91%E7%9D%A3/</guid>
      <description>&lt;h1 id=&#34;谁来看守看守者llm对llm的评估&#34;&gt;谁来看守看守者？LLM对LLM的评估&lt;/h1&gt;&#xA;&lt;p&gt;虽然使用LLM来评判LLM的输出可能看起来像是让狐狸看守鸡舍，但事实证明这种方法效果相当不错（而且比人类更容易扩展）。&lt;/p&gt;&#xA;&lt;p&gt;图片来源：Alexandra Francis&lt;/p&gt;</description>
    </item>
    <item>
      <title>大语言模型如何评估大语言模型？LLM评估机制深度解析</title>
      <link>https://blog.qife122.com/p/%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%A6%82%E4%BD%95%E8%AF%84%E4%BC%B0%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8Bllm%E8%AF%84%E4%BC%B0%E6%9C%BA%E5%88%B6%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90/</link>
      <pubDate>Mon, 20 Oct 2025 19:02:07 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%A6%82%E4%BD%95%E8%AF%84%E4%BC%B0%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8Bllm%E8%AF%84%E4%BC%B0%E6%9C%BA%E5%88%B6%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90/</guid>
      <description>&lt;h1 id=&#34;谁来看守看守者llm在llm评估中的应用&#34;&gt;谁来看守看守者？LLM在LLM评估中的应用&lt;/h1&gt;&#xA;&lt;p&gt;随着生成式AI被更广泛地实施，特别是在生产应用中，工程师们正在思考如何使他们的应用程序更加可靠。随着开发者使用并更加熟悉LLM，他们意识到不能盲目信任这些模型的输出。我们2025年的开发者调查发现，AI采用率正在增加，而对AI的信任和好感度正在下降。光环已经消退，现在工程团队正在寻找构建可信系统的机制。&lt;/p&gt;</description>
    </item>
    <item>
      <title>Credit Karma专家分享AI治理框架实战经验</title>
      <link>https://blog.qife122.com/p/credit-karma%E4%B8%93%E5%AE%B6%E5%88%86%E4%BA%ABai%E6%B2%BB%E7%90%86%E6%A1%86%E6%9E%B6%E5%AE%9E%E6%88%98%E7%BB%8F%E9%AA%8C/</link>
      <pubDate>Fri, 10 Oct 2025 14:12:32 +0800</pubDate>
      <guid>https://blog.qife122.com/p/credit-karma%E4%B8%93%E5%AE%B6%E5%88%86%E4%BA%ABai%E6%B2%BB%E7%90%86%E6%A1%86%E6%9E%B6%E5%AE%9E%E6%88%98%E7%BB%8F%E9%AA%8C/</guid>
      <description>&lt;h3 id=&#34;ai治理框架的实践之路&#34;&gt;AI治理框架的实践之路&lt;/h3&gt;&#xA;&lt;p&gt;并非每家公司都具备Intuit旗下Credit Karma的规模与技术实力，但该公司数据科学负责人为其他企业规划AI治理框架提供了可借鉴的起点。&lt;/p&gt;</description>
    </item>
    <item>
      <title>AI辅助开发工具安全治理基准测试指南</title>
      <link>https://blog.qife122.com/p/ai%E8%BE%85%E5%8A%A9%E5%BC%80%E5%8F%91%E5%B7%A5%E5%85%B7%E5%AE%89%E5%85%A8%E6%B2%BB%E7%90%86%E5%9F%BA%E5%87%86%E6%B5%8B%E8%AF%95%E6%8C%87%E5%8D%97/</link>
      <pubDate>Thu, 25 Sep 2025 21:28:58 +0800</pubDate>
      <guid>https://blog.qife122.com/p/ai%E8%BE%85%E5%8A%A9%E5%BC%80%E5%8F%91%E5%B7%A5%E5%85%B7%E5%AE%89%E5%85%A8%E6%B2%BB%E7%90%86%E5%9F%BA%E5%87%86%E6%B5%8B%E8%AF%95%E6%8C%87%E5%8D%97/</guid>
      <description>&lt;h1 id=&#34;基准测试ai辅助开发者及其工具以实现卓越的ai治理&#34;&gt;基准测试AI辅助开发者（及其工具）以实现卓越的AI治理&lt;/h1&gt;&#xA;&lt;p&gt;浏览LinkedIn、DevTok和X平台会让人感觉几乎所有开发者都全力登上了氛围编码（vibe coding）的潮流列车。虽然84%的开发者确认正在使用（或计划使用）AI编码工具，但完全依赖自主代理进行氛围编码的情况仍属罕见。Stack Overflow的2025年AI调查显示，大多数受访者（72%）尚未采用氛围编码。不过采用率呈上升趋势，目前AI生成的代码占全部代码的41%。&lt;/p&gt;</description>
    </item>
    <item>
      <title>使用PyRIT评估大型语言模型：AI对抗AI的攻防实践</title>
      <link>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8pyrit%E8%AF%84%E4%BC%B0%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8Bai%E5%AF%B9%E6%8A%97ai%E7%9A%84%E6%94%BB%E9%98%B2%E5%AE%9E%E8%B7%B5/</link>
      <pubDate>Fri, 19 Sep 2025 04:23:35 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8pyrit%E8%AF%84%E4%BC%B0%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8Bai%E5%AF%B9%E6%8A%97ai%E7%9A%84%E6%94%BB%E9%98%B2%E5%AE%9E%E8%B7%B5/</guid>
      <description>&lt;h1 id=&#34;使用pyrit评估大型语言模型ai对抗ai的攻防实践&#34;&gt;使用PyRIT评估大型语言模型：AI对抗AI的攻防实践&lt;/h1&gt;&#xA;&lt;h2 id=&#34;大型语言模型简介&#34;&gt;大型语言模型简介&lt;/h2&gt;&#xA;&lt;p&gt;如今，许多人已经听说过ChatGPT、Gemini、Bart、Claude、Llama等人工智能助手。这些都是大型语言模型（LLM）的实现，它们被输入从互联网和其他来源收集的海量数据。这些模型经过所谓的训练阶段，学习如何接收用户的问题和提示，利用之前吸收的数据，然后（希望）提供有用的响应。由于需要巨大的计算能力，训练这些模型的系统甚至让最高性能的游戏PC看起来像坏掉的儿童玩具。一旦训练完成，这些模型可以快速回答各种主题的问题、提供代码示例，甚至可以进行来回讨论（尽管要意识到它们实际上并没有意识）。&lt;/p&gt;</description>
    </item>
    <item>
      <title>使用PyRIT评估大型语言模型：AI对抗AI的安全测试实践</title>
      <link>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8pyrit%E8%AF%84%E4%BC%B0%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8Bai%E5%AF%B9%E6%8A%97ai%E7%9A%84%E5%AE%89%E5%85%A8%E6%B5%8B%E8%AF%95%E5%AE%9E%E8%B7%B5/</link>
      <pubDate>Wed, 10 Sep 2025 08:51:53 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8pyrit%E8%AF%84%E4%BC%B0%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8Bai%E5%AF%B9%E6%8A%97ai%E7%9A%84%E5%AE%89%E5%85%A8%E6%B5%8B%E8%AF%95%E5%AE%9E%E8%B7%B5/</guid>
      <description>&lt;h1 id=&#34;使用pyrit评估大型语言模型llmai对抗ai&#34;&gt;使用PyRIT评估大型语言模型（LLM）：AI对抗AI&lt;/h1&gt;&#xA;&lt;p&gt;许多人都听说过ChatGPT、Gemini、Bart、Claude、Llama或其他人工智能（AI）助手。这些都是大型语言模型（LLM）的实现，它们被输入了从互联网和其他来源收集的海量数据。这些模型经过所谓的训练阶段，学习如何接收用户的问题和提示，利用之前吸收的数据，然后（希望）为用户提供有用的回应。由于这需要巨大的计算能力，训练这些模型的系统甚至让最高性能的游戏PC看起来像坏掉的儿童玩具。一旦训练完成，这些模型可以提供大量实用功能，快速回答各种主题的问题，提供代码示例，甚至可以进行来回讨论（尽管要意识到它们实际上并没有意识）。有关充分利用LLM的更多信息，我强烈建议您查看Bronwen Aker的帖子：https://www.blackhillsinfosec.com/crafting-the-perfect-prompt/。&lt;/p&gt;</description>
    </item>
    <item>
      <title>使用PyRIT评估大型语言模型（LLMs）的AI对抗AI技术</title>
      <link>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8pyrit%E8%AF%84%E4%BC%B0%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8Bllms%E7%9A%84ai%E5%AF%B9%E6%8A%97ai%E6%8A%80%E6%9C%AF/</link>
      <pubDate>Wed, 10 Sep 2025 08:08:47 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8pyrit%E8%AF%84%E4%BC%B0%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8Bllms%E7%9A%84ai%E5%AF%B9%E6%8A%97ai%E6%8A%80%E6%9C%AF/</guid>
      <description>&lt;h1 id=&#34;使用pyrit评估大型语言模型llms&#34;&gt;使用PyRIT评估大型语言模型（LLMs）&lt;/h1&gt;&#xA;&lt;h2 id=&#34;引言&#34;&gt;引言&lt;/h2&gt;&#xA;&lt;p&gt;许多人已经听说过ChatGPT、Gemini、Bart、Claude、Llama或其他人工智能（AI）助手。这些都是大型语言模型（LLMs）的实现，它们被输入了从互联网和其他来源收集的海量数据。这些模型经过所谓的训练阶段，学习如何接收用户的问题和提示，使用先前摄入的数据，然后为用户提供（希望是）有用的响应。由于这需要大量的计算能力，训练这些模型的系统使得即使是最高性能的游戏PC也像是一个坏掉的儿童玩具。一旦训练完成，这些模型可以提供巨大的效用，快速回答各种主题的问题，提供代码示例，甚至可以用于进行来回讨论（尽管要意识到它们实际上并没有意识）。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
