<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Spacy-Llm on 办公AI智能小助手</title>
    <link>https://blog.qife122.com/tags/spacy-llm/</link>
    <description>Recent content in Spacy-Llm on 办公AI智能小助手</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>qife</copyright>
    <lastBuildDate>Sat, 20 Sep 2025 21:22:33 +0800</lastBuildDate>
    <atom:link href="https://blog.qife122.com/tags/spacy-llm/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>利用LLM实现结构化NLP的技术解析</title>
      <link>https://blog.qife122.com/p/%E5%88%A9%E7%94%A8llm%E5%AE%9E%E7%8E%B0%E7%BB%93%E6%9E%84%E5%8C%96nlp%E7%9A%84%E6%8A%80%E6%9C%AF%E8%A7%A3%E6%9E%90/</link>
      <pubDate>Sat, 20 Sep 2025 21:22:33 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E5%88%A9%E7%94%A8llm%E5%AE%9E%E7%8E%B0%E7%BB%93%E6%9E%84%E5%8C%96nlp%E7%9A%84%E6%8A%80%E6%9C%AF%E8%A7%A3%E6%9E%90/</guid>
      <description>&lt;h1 id=&#34;利用llm实现结构化nlp&#34;&gt;利用LLM实现结构化NLP&lt;/h1&gt;&#xA;&lt;h2 id=&#34;结构化nlpsnlp概述&#34;&gt;结构化NLP（SNLP）概述&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;目标是从文本中提取预定义的属性集合&lt;/li&gt;&#xA;&lt;li&gt;包括实体（地点、人物等）、词元、类别等&lt;/li&gt;&#xA;&lt;li&gt;传统NLP使用预测模型，现代则常用BERT级Transformer模型&lt;/li&gt;&#xA;&lt;li&gt;实际应用需要将多个任务链式组合&lt;/li&gt;&#xA;&lt;li&gt;下游应用依赖于明确的结构化信息&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;spacy框架特性&#34;&gt;spaCy框架特性&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;免费开源库，专为生产环境设计&lt;/li&gt;&#xA;&lt;li&gt;采用模块化管道方法进行语言分析&lt;/li&gt;&#xA;&lt;li&gt;将非结构化文本转换为结构化数据对象&lt;/li&gt;&#xA;&lt;li&gt;提供免费课程资源&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;大语言模型的优势与挑战&#34;&gt;大语言模型的优势与挑战&lt;/h2&gt;&#xA;&lt;h3 id=&#34;优势&#34;&gt;优势&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;支持快速原型构建、零样本学习和低开发成本&lt;/li&gt;&#xA;&lt;li&gt;通过适当提示可在某些任务上超越小型预测模型&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;挑战&#34;&gt;挑战&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;延迟问题、成本/硬件要求、自由格式文本输出和幻觉现象&lt;/li&gt;&#xA;&lt;li&gt;闭源与开源模型各有局限：闭源模型涉及网络延迟、费用和条款限制；开源模型需要大量计算资源且能力较弱&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;snlp与llm的融合方案&#34;&gt;SNLP与LLM的融合方案&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;通过预训练、微调、提示设计和防护机制约束LLM输出&lt;/li&gt;&#xA;&lt;li&gt;需要解析LLM响应以适配结构化NLP需求&lt;/li&gt;&#xA;&lt;li&gt;模块化方法更适合工业级应用场景&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;spacy-llm技术方案&#34;&gt;spacy-llm技术方案&lt;/h2&gt;&#xA;&lt;h3 id=&#34;核心架构&#34;&gt;核心架构&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;作为spaCy扩展组件，利用其数据结构和管理系统&lt;/li&gt;&#xA;&lt;li&gt;通过任务管道解决SNLP问题：每个任务负责提示构建、分割和解析&lt;/li&gt;&#xA;&lt;li&gt;支持LLM与预测模型的无缝切换&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;集成能力&#34;&gt;集成能力&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;支持Hugging Face、主流LLM供应商和LangChain&lt;/li&gt;&#xA;&lt;li&gt;内置任务涵盖NER、关系提取、情感分析等多元场景&lt;/li&gt;&#xA;&lt;li&gt;支持批处理、响应日志记录和缓存机制&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;工作流案例&#34;&gt;工作流案例&lt;/h3&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;LLM辅助标注&lt;/strong&gt;：生成评估数据、训练数据和少样本示例&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;提示前预处理&lt;/strong&gt;：识别替换个人身份信息，去除无效文本&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;条件化处理&lt;/strong&gt;：仅对特定主题文本调用LLM以降低成本&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;响应后处理&lt;/strong&gt;：质量验证、响应标准化和知识库连接&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;h3 id=&#34;配置示例&#34;&gt;配置示例&lt;/h3&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;&#xA;&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15&#xA;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&#xA;&lt;td class=&#34;lntd&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;nlp&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;lang&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;en&amp;#34;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;pipeline&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;llm_ner&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;components&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;components&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;llm_ner&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;factory&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;llm&amp;#34;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;components&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;llm_ner&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;task&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nd&#34;&gt;@llm_tasks&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;spacy.NER.v3&amp;#34;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;labels&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;SIZE&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;TYPE&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;TOPPING&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;PRODUCT&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;components&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;llm_ner&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;model&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nd&#34;&gt;@llm_models&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;spacy.GPT-3-5.v3&amp;#34;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;name&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;gpt-3.5-turbo&amp;#34;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;&#xA;&lt;/div&gt;&#xA;&lt;/div&gt;&lt;h2 id=&#34;生产环境考量&#34;&gt;生产环境考量&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;需要平衡自定义能力、系统稳健性、推理成本和网络延迟&lt;/li&gt;&#xA;&lt;li&gt;spacy-llm提供可配置的LLM集成方案&lt;/li&gt;&#xA;&lt;li&gt;LLM辅助标注能快速生成训练评估数据&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;技术资源&#34;&gt;技术资源&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;项目源码托管于开源平台&lt;/li&gt;&#xA;&lt;li&gt;提供详细技术文档和应用案例&lt;/li&gt;&#xA;&lt;li&gt;包含反对LLM极端主义的深度技术分析&lt;/li&gt;&#xA;&lt;/ul&gt;</description>
    </item>
  </channel>
</rss>
