文本处理 on 办公AI智能小助手

使用Jaccard相似度和MinHash查找近似重复文档

Thu, 27 Nov 2025 11:26:05 +0800

使用Jaccard相似度和MinHash查找近似重复文档

问题背景

假设我们有一个大型文档集合，希望识别哪些文档彼此大致相同。例如，我们可能在一段时间内爬取了网页，期望多次获取"相同页面"，但会看到元数据的细微差异，或者看到经过小编辑后的多个页面版本。

Linux Sed 文本编辑完全指南：语法与实例详解

Thu, 09 Oct 2025 04:54:38 +0800

Linux Sed 教程：学习文本编辑语法与实例

Sed 简介

Sed 是“流编辑器”的缩写。流指的是字节的源或目的地。换句话说，sed 可以从标准输入（stdin）读取输入，对流应用指定的编辑，并自动将结果输出到标准输出（stdout）。Sed 语法允许在命令行上指定输入文件。然而，该语法不直接支持输出文件规范；这可以通过输出重定向或编辑文件并可选地备份原始副本来实现。

Linux Sed 文本编辑教程：语法与实例详解

Mon, 29 Sep 2025 13:18:15 +0800

Linux Sed 教程：学习文本编辑的语法与实例

Sed 简介

Sed 是“流编辑器”的缩写。流指的是字节的源或目标。换句话说，sed 可以从标准输入（stdin）读取输入，对流应用指定的编辑，并自动将结果输出到标准输出（stdout）。Sed 语法允许在命令行上指定输入文件。但是，该语法不直接支持输出文件规范；这可以通过输出重定向或原地编辑文件（可选择备份原始副本）来实现。Sed 是 Linux 和类 Unix 系统上最强大的工具之一。学习它是值得的，因此在本教程中，我们将从 sed 命令语法和示例开始。

Python文本分词技术详解：五种方法对比与代码实例

Fri, 26 Sep 2025 19:54:51 +0800

如何使用Python进行文本分词——代码示例详解

在Python中处理文本数据时，经常需要对文本数据集进行分词操作。分词是将文本分解为更小单元（通常是单词或句子）的过程，这些单元称为词元。这些词元可用于进一步分析，如文本分类、情感分析或自然语言处理任务。

使用AI工具构建大型文本文件查看器的编程实践

Wed, 10 Sep 2025 04:45:15 +0800

使用AI工具构建大型文本文件查看器的编程实践

我刚刚使用AI创建了另一个Windows 10/11应用程序。这是对我几周前发布的SquareCap程序的后续开发。

这次我要解决的问题是打开和搜索超大型文本文件。我以前使用旧的Mandiant Highlighter程序来处理这个问题，但该程序最后更新于2011年，无法处理我想要打开的26GB文本文件。

轻松实现spaCy文档分块技术

Mon, 08 Sep 2025 07:56:34 +0800

spaCy Chunks：spaCy文档分块组件

spaCy Chunks是一个用于spaCy的自定义管道组件，允许从文档生成句子或词块的重叠分块。该组件适用于需要处理较小、可能重叠文本段的各类NLP任务。