<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>实体链接 on 办公AI智能小助手</title>
    <link>https://blog.qife122.com/tags/%E5%AE%9E%E4%BD%93%E9%93%BE%E6%8E%A5/</link>
    <description>Recent content in 实体链接 on 办公AI智能小助手</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>qife</copyright>
    <lastBuildDate>Wed, 24 Sep 2025 01:34:59 +0800</lastBuildDate>
    <atom:link href="https://blog.qife122.com/tags/%E5%AE%9E%E4%BD%93%E9%93%BE%E6%8E%A5/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>实体链接技术突破：精度提升60倍加速</title>
      <link>https://blog.qife122.com/p/%E5%AE%9E%E4%BD%93%E9%93%BE%E6%8E%A5%E6%8A%80%E6%9C%AF%E7%AA%81%E7%A0%B4%E7%B2%BE%E5%BA%A6%E6%8F%90%E5%8D%8760%E5%80%8D%E5%8A%A0%E9%80%9F/</link>
      <pubDate>Wed, 24 Sep 2025 01:34:59 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E5%AE%9E%E4%BD%93%E9%93%BE%E6%8E%A5%E6%8A%80%E6%9C%AF%E7%AA%81%E7%A0%B4%E7%B2%BE%E5%BA%A6%E6%8F%90%E5%8D%8760%E5%80%8D%E5%8A%A0%E9%80%9F/</guid>
      <description>&lt;h1 id=&#34;改进文本与知识库间的实体链接技术&#34;&gt;改进文本与知识库间的实体链接技术&lt;/h1&gt;&#xA;&lt;p&gt;实体链接（EL）是将文本中的实体提及自动关联到知识库（存储实体关系事实的数据库）对应条目的过程，例如将&amp;quot;英格兰&amp;quot;链接至&amp;quot;英格兰足球队&amp;quot;而非国家实体。该技术是问答系统、信息抽取等自然语言处理应用的关键基础。&lt;/p&gt;</description>
    </item>
    <item>
      <title>使用spaCy训练自定义实体链接模型</title>
      <link>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8spacy%E8%AE%AD%E7%BB%83%E8%87%AA%E5%AE%9A%E4%B9%89%E5%AE%9E%E4%BD%93%E9%93%BE%E6%8E%A5%E6%A8%A1%E5%9E%8B/</link>
      <pubDate>Fri, 19 Sep 2025 07:13:03 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8spacy%E8%AE%AD%E7%BB%83%E8%87%AA%E5%AE%9A%E4%B9%89%E5%AE%9E%E4%BD%93%E9%93%BE%E6%8E%A5%E6%A8%A1%E5%9E%8B/</guid>
      <description>&lt;h1 id=&#34;使用spacy训练自定义实体链接模型&#34;&gt;使用spaCy训练自定义实体链接模型&lt;/h1&gt;&#xA;&lt;p&gt;spaCy是一个用于Python高级自然语言处理的开源库。本视频演示如何创建自定义实体链接模型，以消除文本中人物&amp;quot;Emerson&amp;quot;不同指称的歧义，并将其映射到知识库中的唯一标识符。通过使用Prodigy从头开始标注文本数据，并训练机器学习模型来实现这一目标。&lt;/p&gt;</description>
    </item>
    <item>
      <title>spaCy实体链接技术解析</title>
      <link>https://blog.qife122.com/p/spacy%E5%AE%9E%E4%BD%93%E9%93%BE%E6%8E%A5%E6%8A%80%E6%9C%AF%E8%A7%A3%E6%9E%90/</link>
      <pubDate>Thu, 18 Sep 2025 01:49:20 +0800</pubDate>
      <guid>https://blog.qife122.com/p/spacy%E5%AE%9E%E4%BD%93%E9%93%BE%E6%8E%A5%E6%8A%80%E6%9C%AF%E8%A7%A3%E6%9E%90/</guid>
      <description>&lt;h1 id=&#34;spacy实体链接功能将文本指称链接到知识库概念&#34;&gt;spaCy实体链接功能：将文本指称链接到知识库概念&lt;/h1&gt;&#xA;&lt;h2 id=&#34;实体链接&#34;&gt;实体链接&lt;/h2&gt;&#xA;&lt;p&gt;文本文档通过自然语言处理管道进行处理：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;将输入文本分词为单词和句子&lt;/li&gt;&#xA;&lt;li&gt;解析语法和句法结构&lt;/li&gt;&#xA;&lt;li&gt;识别有意义的实体及其类型&lt;/li&gt;&#xA;&lt;li&gt;&amp;hellip;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;但如何将这些信息与&amp;quot;真实世界&amp;quot;（或其近似表示——知识库）建立联系？&lt;/p&gt;</description>
    </item>
    <item>
      <title>实体链接技术突破：准确率与效率双提升</title>
      <link>https://blog.qife122.com/p/%E5%AE%9E%E4%BD%93%E9%93%BE%E6%8E%A5%E6%8A%80%E6%9C%AF%E7%AA%81%E7%A0%B4%E5%87%86%E7%A1%AE%E7%8E%87%E4%B8%8E%E6%95%88%E7%8E%87%E5%8F%8C%E6%8F%90%E5%8D%87/</link>
      <pubDate>Tue, 16 Sep 2025 01:36:06 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E5%AE%9E%E4%BD%93%E9%93%BE%E6%8E%A5%E6%8A%80%E6%9C%AF%E7%AA%81%E7%A0%B4%E5%87%86%E7%A1%AE%E7%8E%87%E4%B8%8E%E6%95%88%E7%8E%87%E5%8F%8C%E6%8F%90%E5%8D%87/</guid>
      <description>&lt;h3 id=&#34;实体链接的技术挑战&#34;&gt;实体链接的技术挑战&lt;/h3&gt;&#xA;&lt;p&gt;实体链接（EL）是将文本中的实体提及自动关联到知识库（如Wikidata）中对应条目的过程。例如在句子&amp;quot;英格兰赢得比赛&amp;quot;中，需要将&amp;quot;英格兰&amp;quot;链接到&amp;quot;英格兰足球队&amp;quot;而非&amp;quot;英格兰国家&amp;quot;实体。该技术是问答系统、信息抽取等自然语言处理应用的关键基础。&lt;/p&gt;</description>
    </item>
    <item>
      <title>实体链接技术突破：高效连接文本与知识库</title>
      <link>https://blog.qife122.com/p/%E5%AE%9E%E4%BD%93%E9%93%BE%E6%8E%A5%E6%8A%80%E6%9C%AF%E7%AA%81%E7%A0%B4%E9%AB%98%E6%95%88%E8%BF%9E%E6%8E%A5%E6%96%87%E6%9C%AC%E4%B8%8E%E7%9F%A5%E8%AF%86%E5%BA%93/</link>
      <pubDate>Sat, 13 Sep 2025 08:55:17 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E5%AE%9E%E4%BD%93%E9%93%BE%E6%8E%A5%E6%8A%80%E6%9C%AF%E7%AA%81%E7%A0%B4%E9%AB%98%E6%95%88%E8%BF%9E%E6%8E%A5%E6%96%87%E6%9C%AC%E4%B8%8E%E7%9F%A5%E8%AF%86%E5%BA%93/</guid>
      <description>&lt;h1 id=&#34;改进文本与知识库间的实体链接技术&#34;&gt;改进文本与知识库间的实体链接技术&lt;/h1&gt;&#xA;&lt;p&gt;实体链接（EL）是将文本中的实体提及自动关联到知识库（存储实体关系事实的数据库，如Wikidata）对应条目的过程。例如，在句子&amp;quot;英格兰赢得比赛&amp;quot;中，需要将&amp;quot;英格兰&amp;quot;链接到&amp;quot;英格兰足球队&amp;quot;而非&amp;quot;英格兰国家&amp;quot;的实体。&lt;/p&gt;</description>
    </item>
    <item>
      <title>spaCy实体链接技术解析</title>
      <link>https://blog.qife122.com/p/spacy%E5%AE%9E%E4%BD%93%E9%93%BE%E6%8E%A5%E6%8A%80%E6%9C%AF%E8%A7%A3%E6%9E%90/</link>
      <pubDate>Mon, 08 Sep 2025 01:57:15 +0800</pubDate>
      <guid>https://blog.qife122.com/p/spacy%E5%AE%9E%E4%BD%93%E9%93%BE%E6%8E%A5%E6%8A%80%E6%9C%AF%E8%A7%A3%E6%9E%90/</guid>
      <description>&lt;h1 id=&#34;entity-linking-for-spacy-grounding-textual-mentions&#34;&gt;Entity linking for spaCy: Grounding textual mentions&lt;/h1&gt;&#xA;&lt;h2 id=&#34;实体识别&#34;&gt;实体识别&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;命名实体（NE）是由一个或多个连续标记组成的文本跨度&lt;/li&gt;&#xA;&lt;li&gt;具有标签或类型，例如“人物”、“地点”或“组织”&lt;/li&gt;&#xA;&lt;li&gt;NER算法基于标注数据（如OntoNotes）进行训练&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;实体链接&#34;&gt;实体链接&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;将命名实体解析到知识库（KB）中的概念&lt;/li&gt;&#xA;&lt;li&gt;将词汇信息锚定到“真实世界”&lt;/li&gt;&#xA;&lt;li&gt;实现数据库事实与文本信息的完全集成&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;nel框架&#34;&gt;NEL框架&lt;/h2&gt;&#xA;&lt;h3 id=&#34;步骤0假设已完成原始文本的ner处理获得实体及标签&#34;&gt;步骤0：假设已完成原始文本的NER处理，获得实体及标签&lt;/h3&gt;&#xA;&lt;h3 id=&#34;步骤1候选生成&#34;&gt;步骤1：候选生成&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;任务：给定文本提及，生成候选ID列表&lt;/li&gt;&#xA;&lt;li&gt;方法：通过解析维基百科链接构建知识库（KB）&#xA;&lt;ul&gt;&#xA;&lt;li&gt;同义词处理（例如“William King”作为“William King-Noel, 1st Earl of Lovelace”的同义词）&lt;/li&gt;&#xA;&lt;li&gt;通过规范化配对频率计算先验概率&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;步骤2实体链接&#34;&gt;步骤2：实体链接&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;任务：给定候选ID列表和文本上下文，生成最可能的标识符&lt;/li&gt;&#xA;&lt;li&gt;方法：比较候选实体与上下文的词汇线索&#xA;&lt;ul&gt;&#xA;&lt;li&gt;使用WikiData名称和描述计算上下文相似度&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;架构&#34;&gt;架构&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;64维实体描述编码器&lt;/li&gt;&#xA;&lt;li&gt;64维句子编码器&lt;/li&gt;&#xA;&lt;li&gt;相似度计算损失函数&lt;/li&gt;&#xA;&lt;li&gt;输入：NER提及和KB候选实体ID&lt;/li&gt;&#xA;&lt;li&gt;输出：每个提及的实体ID概率&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;知识库限制&#34;&gt;知识库限制&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;WikiData包含许多不常链接的主题&lt;/li&gt;&#xA;&lt;li&gt;KB修剪策略：&#xA;&lt;ul&gt;&#xA;&lt;li&gt;仅保留至少20个入站跨wiki链接的实体（从800万减少到100万）&lt;/li&gt;&#xA;&lt;li&gt;每个别名-实体对在维基百科至少出现5次&lt;/li&gt;&#xA;&lt;li&gt;每个别名/提及保留10个候选实体&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;结果：约110万实体和150万别名&lt;/li&gt;&#xA;&lt;li&gt;存储1M实体和1.5M别名+预训练64维实体向量的文件大小为350MB&lt;/li&gt;&#xA;&lt;li&gt;KB仅包含14%的WikiData概念，但EL仍达到84.2%的最大准确率（使用Oracle消歧）&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;准确率表现&#34;&gt;准确率表现&lt;/h2&gt;&#xA;&lt;p&gt;在维基百科文章上训练20万次提及（2小时），在5000个提及上测试：&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
