<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>文本处理 on 办公AI智能小助手</title>
    <link>https://blog.qife122.com/tags/%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86/</link>
    <description>Recent content in 文本处理 on 办公AI智能小助手</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>qife</copyright>
    <lastBuildDate>Thu, 27 Nov 2025 11:26:05 +0800</lastBuildDate>
    <atom:link href="https://blog.qife122.com/tags/%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>使用Jaccard相似度和MinHash查找近似重复文档</title>
      <link>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8jaccard%E7%9B%B8%E4%BC%BC%E5%BA%A6%E5%92%8Cminhash%E6%9F%A5%E6%89%BE%E8%BF%91%E4%BC%BC%E9%87%8D%E5%A4%8D%E6%96%87%E6%A1%A3/</link>
      <pubDate>Thu, 27 Nov 2025 11:26:05 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8jaccard%E7%9B%B8%E4%BC%BC%E5%BA%A6%E5%92%8Cminhash%E6%9F%A5%E6%89%BE%E8%BF%91%E4%BC%BC%E9%87%8D%E5%A4%8D%E6%96%87%E6%A1%A3/</guid>
      <description>&lt;h1 id=&#34;使用jaccard相似度和minhash查找近似重复文档&#34;&gt;使用Jaccard相似度和MinHash查找近似重复文档&lt;/h1&gt;&#xA;&lt;h2 id=&#34;问题背景&#34;&gt;问题背景&lt;/h2&gt;&#xA;&lt;p&gt;假设我们有一个大型文档集合，希望识别哪些文档彼此大致相同。例如，我们可能在一段时间内爬取了网页，期望多次获取&amp;quot;相同页面&amp;quot;，但会看到元数据的细微差异，或者看到经过小编辑后的多个页面版本。&lt;/p&gt;</description>
    </item>
    <item>
      <title>Linux Sed 文本编辑完全指南：语法与实例详解</title>
      <link>https://blog.qife122.com/p/linux-sed-%E6%96%87%E6%9C%AC%E7%BC%96%E8%BE%91%E5%AE%8C%E5%85%A8%E6%8C%87%E5%8D%97%E8%AF%AD%E6%B3%95%E4%B8%8E%E5%AE%9E%E4%BE%8B%E8%AF%A6%E8%A7%A3/</link>
      <pubDate>Thu, 09 Oct 2025 04:54:38 +0800</pubDate>
      <guid>https://blog.qife122.com/p/linux-sed-%E6%96%87%E6%9C%AC%E7%BC%96%E8%BE%91%E5%AE%8C%E5%85%A8%E6%8C%87%E5%8D%97%E8%AF%AD%E6%B3%95%E4%B8%8E%E5%AE%9E%E4%BE%8B%E8%AF%A6%E8%A7%A3/</guid>
      <description>&lt;h1 id=&#34;linux-sed-教程学习文本编辑语法与实例&#34;&gt;Linux Sed 教程：学习文本编辑语法与实例&lt;/h1&gt;&#xA;&lt;h2 id=&#34;sed-简介&#34;&gt;Sed 简介&lt;/h2&gt;&#xA;&lt;p&gt;Sed 是“流编辑器”的缩写。流指的是字节的源或目的地。换句话说，sed 可以从标准输入（stdin）读取输入，对流应用指定的编辑，并自动将结果输出到标准输出（stdout）。Sed 语法允许在命令行上指定输入文件。然而，该语法不直接支持输出文件规范；这可以通过输出重定向或编辑文件并可选地备份原始副本来实现。&lt;/p&gt;</description>
    </item>
    <item>
      <title>Linux Sed 文本编辑教程：语法与实例详解</title>
      <link>https://blog.qife122.com/p/linux-sed-%E6%96%87%E6%9C%AC%E7%BC%96%E8%BE%91%E6%95%99%E7%A8%8B%E8%AF%AD%E6%B3%95%E4%B8%8E%E5%AE%9E%E4%BE%8B%E8%AF%A6%E8%A7%A3/</link>
      <pubDate>Mon, 29 Sep 2025 13:18:15 +0800</pubDate>
      <guid>https://blog.qife122.com/p/linux-sed-%E6%96%87%E6%9C%AC%E7%BC%96%E8%BE%91%E6%95%99%E7%A8%8B%E8%AF%AD%E6%B3%95%E4%B8%8E%E5%AE%9E%E4%BE%8B%E8%AF%A6%E8%A7%A3/</guid>
      <description>&lt;h1 id=&#34;linux-sed-教程学习文本编辑的语法与实例&#34;&gt;Linux Sed 教程：学习文本编辑的语法与实例&lt;/h1&gt;&#xA;&lt;h2 id=&#34;sed-简介&#34;&gt;Sed 简介&lt;/h2&gt;&#xA;&lt;p&gt;Sed 是“流编辑器”的缩写。流指的是字节的源或目标。换句话说，sed 可以从标准输入（stdin）读取输入，对流应用指定的编辑，并自动将结果输出到标准输出（stdout）。Sed 语法允许在命令行上指定输入文件。但是，该语法不直接支持输出文件规范；这可以通过输出重定向或原地编辑文件（可选择备份原始副本）来实现。Sed 是 Linux 和类 Unix 系统上最强大的工具之一。学习它是值得的，因此在本教程中，我们将从 sed 命令语法和示例开始。&lt;/p&gt;</description>
    </item>
    <item>
      <title>Python文本分词技术详解：五种方法对比与代码实例</title>
      <link>https://blog.qife122.com/p/python%E6%96%87%E6%9C%AC%E5%88%86%E8%AF%8D%E6%8A%80%E6%9C%AF%E8%AF%A6%E8%A7%A3%E4%BA%94%E7%A7%8D%E6%96%B9%E6%B3%95%E5%AF%B9%E6%AF%94%E4%B8%8E%E4%BB%A3%E7%A0%81%E5%AE%9E%E4%BE%8B/</link>
      <pubDate>Fri, 26 Sep 2025 19:54:51 +0800</pubDate>
      <guid>https://blog.qife122.com/p/python%E6%96%87%E6%9C%AC%E5%88%86%E8%AF%8D%E6%8A%80%E6%9C%AF%E8%AF%A6%E8%A7%A3%E4%BA%94%E7%A7%8D%E6%96%B9%E6%B3%95%E5%AF%B9%E6%AF%94%E4%B8%8E%E4%BB%A3%E7%A0%81%E5%AE%9E%E4%BE%8B/</guid>
      <description>&lt;h1 id=&#34;如何使用python进行文本分词代码示例详解&#34;&gt;如何使用Python进行文本分词——代码示例详解&lt;/h1&gt;&#xA;&lt;p&gt;在Python中处理文本数据时，经常需要对文本数据集进行分词操作。分词是将文本分解为更小单元（通常是单词或句子）的过程，这些单元称为词元。这些词元可用于进一步分析，如文本分类、情感分析或自然语言处理任务。&lt;/p&gt;</description>
    </item>
    <item>
      <title>使用AI工具构建大型文本文件查看器的编程实践</title>
      <link>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8ai%E5%B7%A5%E5%85%B7%E6%9E%84%E5%BB%BA%E5%A4%A7%E5%9E%8B%E6%96%87%E6%9C%AC%E6%96%87%E4%BB%B6%E6%9F%A5%E7%9C%8B%E5%99%A8%E7%9A%84%E7%BC%96%E7%A8%8B%E5%AE%9E%E8%B7%B5/</link>
      <pubDate>Wed, 10 Sep 2025 04:45:15 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E4%BD%BF%E7%94%A8ai%E5%B7%A5%E5%85%B7%E6%9E%84%E5%BB%BA%E5%A4%A7%E5%9E%8B%E6%96%87%E6%9C%AC%E6%96%87%E4%BB%B6%E6%9F%A5%E7%9C%8B%E5%99%A8%E7%9A%84%E7%BC%96%E7%A8%8B%E5%AE%9E%E8%B7%B5/</guid>
      <description>&lt;h1 id=&#34;使用ai工具构建大型文本文件查看器的编程实践&#34;&gt;使用AI工具构建大型文本文件查看器的编程实践&lt;/h1&gt;&#xA;&lt;p&gt;我刚刚使用AI创建了另一个Windows 10/11应用程序。这是对我几周前发布的SquareCap程序的后续开发。&lt;/p&gt;&#xA;&lt;p&gt;这次我要解决的问题是打开和搜索超大型文本文件。我以前使用旧的Mandiant Highlighter程序来处理这个问题，但该程序最后更新于2011年，无法处理我想要打开的26GB文本文件。&lt;/p&gt;</description>
    </item>
    <item>
      <title>轻松实现spaCy文档分块技术</title>
      <link>https://blog.qife122.com/p/%E8%BD%BB%E6%9D%BE%E5%AE%9E%E7%8E%B0spacy%E6%96%87%E6%A1%A3%E5%88%86%E5%9D%97%E6%8A%80%E6%9C%AF/</link>
      <pubDate>Mon, 08 Sep 2025 07:56:34 +0800</pubDate>
      <guid>https://blog.qife122.com/p/%E8%BD%BB%E6%9D%BE%E5%AE%9E%E7%8E%B0spacy%E6%96%87%E6%A1%A3%E5%88%86%E5%9D%97%E6%8A%80%E6%9C%AF/</guid>
      <description>&lt;h1 id=&#34;spacy-chunksspacy文档分块组件&#34;&gt;spaCy Chunks：spaCy文档分块组件&lt;/h1&gt;&#xA;&lt;p&gt;spaCy Chunks是一个用于spaCy的自定义管道组件，允许从文档生成句子或词块的重叠分块。该组件适用于需要处理较小、可能重叠文本段的各类NLP任务。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
