textacy: NLP, before and after spaCy
textacy是一个基于高性能spaCy库的Python自然语言处理(NLP)工具库。它将基础任务(如分词、词性标注、依存解析等)委托给spaCy处理,主要聚焦于文本处理的前后阶段任务。
核心功能
- 扩展spaCy功能:通过便捷方法和自定义扩展访问并增强spaCy的核心文档处理能力,支持单文档或批量文档操作
- 预置数据集加载:提供带文本内容及元数据的多样化数据集,涵盖国会演讲、历史文献、Reddit评论等
- 文本预处理:清洗、规范化及探索原始文本,为spaCy处理做准备
- 结构化信息提取:从处理后的文档中提取n-gram、实体、缩略语、关键词及主谓宾三元组
- 相似度计算:支持多种字符串与序列相似度度量方法
- 主题建模:文档标记化与向量化,支持模型训练、结果解释与可视化
- 文本统计:计算可读性(如Flesch-Kincaid等级)与词汇多样性指标(如类符形符比)
资源链接
- 下载:PyPI页面
- 文档:ReadTheDocs
- 源码:GitHub仓库
目录概览
-
安装指南
- 依赖项说明
- 数据下载
-
快速入门
- 文本处理流程
- 单文档操作(创建与分析)
- 多文档操作(语料库构建与分析)
- 多语言支持
-
教程案例
- 美国国会工作者背景分析
- 国会文本中的术语与主题挖掘
-
API参考
- 语言/文档/语料库接口
- 数据集与资源
- 文本预处理
- 信息提取
- 文本统计
- 相似度计算
- 文档表示
- 主题建模
- 文件I/O
- 可视化
- 数据增强
- 其他功能
-
版本变更
- 详细列出0.1.3至0.13.0版本更新记录