spaCy v3.3发布:NLP库速度提升与可训练词形还原器

spaCy v3.3显著提升自然语言处理库性能,包括全流程组件加速15%、新增可训练词形还原器,并支持芬兰语、韩语和瑞典语的新训练管道。更新还涵盖重叠span可视化与多语言lemmatizer准确率提升。

spaCy v3.3发布:NLP库速度提升与可训练词形还原器

速度优化

spaCy v3.3包含一系列速度改进,提升所有核心管道组件在训练和推理中的效率。对于长文本,训练管道的预测速度提升15%或更高。en_core_web_md的详细基准测试显示v3.2与v3.3的速度对比:

速度基准:en_core_web_md

CPU 平均词数/文档 v3.2 词/秒 v3.3 词/秒 差异
Intel Xeon W-2265 100 17292 17441 10.86%
1000 15408 16024 4.00%
10000 12798 15346 19.91%
Apple M1 100 18272 18408 0.74%
1000 18794 19248 2.42%
10000 15144 17513 15.64%

可训练词形还原器

新的可训练词形还原器组件使用编辑树将词元转换为词根形式。可通过训练快速入门体验该功能。

重叠span可视化

displaCy现支持从Doc.spans进行重叠span标注。

新训练管道

v3.3为芬兰语、韩语和瑞典语引入新的CPU/CNN管道,使用可训练词形还原器和floret向量。基于Bloom嵌入和子词技术,这些管道具有紧凑的向量且无词汇表外问题。

管道性能对比

包名 语言 UPOS 解析器 LAS NER F1
fi_core_news_sm 芬兰语 92.5 71.9 75.9
fi_core_news_md 芬兰语 95.9 78.6 80.6
fi_core_news_lg 芬兰语 96.2 79.4 82.4
ko_core_news_sm 韩语 86.1 65.6 71.3
ko_core_news_md 韩语 94.7 80.9 83.1
ko_core_news_lg 韩语 94.7 81.3 85.3
sv_core_news_sm 瑞典语 95.0 75.9 74.7
sv_core_news_md 瑞典语 96.3 78.5 79.3
sv_core_news_lg 瑞典语 96.3 79.1 81.1

管道更新

以下语言的训练管道从查找表或基于规则的词形还原器切换至新的可训练词形还原器:

词形还原器准确率(md管道)

语言 v3.2 v3.3
丹麦语 84.9 94.8
荷兰语 81.5 94.0
德语 73.4 97.7
希腊语 56.5 88.9
芬兰语 - 86.2
意大利语 86.6 97.2
韩语 - 90.0
立陶宛语 71.1 84.8
挪威博克马尔语 76.7 97.1
波兰语 87.1 93.7
葡萄牙语 76.7 96.9
罗马尼亚语 81.8 95.5
瑞典语 - 95.5

生态更新

自v3.2以来,spaCy生态新增多个插件、扩展、管道和教程,包括:

  • Applied Language Technology课程(使用spaCy和Stanza的NLP入门)
  • Augmenty(文本增强库)
  • classy-classification(少样本和零样本分类库)
  • Concise Concepts(基于词嵌入相似度的少样本NER)
  • Crosslingual Coreference(跨语言共指解析)
  • EDS-NLP(法语临床笔记信息提取)
  • eng-spacysentiment(英语情感分析)
  • Healthsea(健康补充剂效果分析管道)
  • HuSpaCy(匈牙利语NLP处理)
  • Klayers(AWS Lambda层支持)
  • NER视频教程
  • Scrubadub(文本个人信息移除)
  • spacypdfreader(PDF文本提取)
  • spacy-setfit-textcat(SetFit少样本分类实验)
  • spacy-wrap( transformers 模型集成)
  • textnets(网络文本分析)
  • tmtoolkit(文本挖掘和主题建模工具包)

资源

  • spaCy v3.3新特性详解
  • 发布说明:详细更新概述
  • 模型目录:下载训练管道
  • 生态项目:插件与扩展
  • 项目模板:端到端NLP工作流
  • 视频教程:YouTube深度内容

致谢:感谢Antti Ajanki、Tuomo Hiippala(芬兰语)和Elena Fano(瑞典语)对新管道的贡献。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计