spaCy v3.3发布:NLP库速度提升与可训练词形还原器
速度优化
spaCy v3.3包含一系列速度改进,提升所有核心管道组件在训练和推理中的效率。对于长文本,训练管道的预测速度提升15%或更高。en_core_web_md的详细基准测试显示v3.2与v3.3的速度对比:
速度基准:en_core_web_md
CPU | 平均词数/文档 | v3.2 词/秒 | v3.3 词/秒 | 差异 |
---|---|---|---|---|
Intel Xeon W-2265 | 100 | 17292 | 17441 | 10.86% |
1000 | 15408 | 16024 | 4.00% | |
10000 | 12798 | 15346 | 19.91% | |
Apple M1 | 100 | 18272 | 18408 | 0.74% |
1000 | 18794 | 19248 | 2.42% | |
10000 | 15144 | 17513 | 15.64% |
可训练词形还原器
新的可训练词形还原器组件使用编辑树将词元转换为词根形式。可通过训练快速入门体验该功能。
重叠span可视化
displaCy现支持从Doc.spans进行重叠span标注。
新训练管道
v3.3为芬兰语、韩语和瑞典语引入新的CPU/CNN管道,使用可训练词形还原器和floret向量。基于Bloom嵌入和子词技术,这些管道具有紧凑的向量且无词汇表外问题。
管道性能对比
包名 | 语言 | UPOS | 解析器 LAS | NER F1 |
---|---|---|---|---|
fi_core_news_sm | 芬兰语 | 92.5 | 71.9 | 75.9 |
fi_core_news_md | 芬兰语 | 95.9 | 78.6 | 80.6 |
fi_core_news_lg | 芬兰语 | 96.2 | 79.4 | 82.4 |
ko_core_news_sm | 韩语 | 86.1 | 65.6 | 71.3 |
ko_core_news_md | 韩语 | 94.7 | 80.9 | 83.1 |
ko_core_news_lg | 韩语 | 94.7 | 81.3 | 85.3 |
sv_core_news_sm | 瑞典语 | 95.0 | 75.9 | 74.7 |
sv_core_news_md | 瑞典语 | 96.3 | 78.5 | 79.3 |
sv_core_news_lg | 瑞典语 | 96.3 | 79.1 | 81.1 |
管道更新
以下语言的训练管道从查找表或基于规则的词形还原器切换至新的可训练词形还原器:
词形还原器准确率(md管道)
语言 | v3.2 | v3.3 |
---|---|---|
丹麦语 | 84.9 | 94.8 |
荷兰语 | 81.5 | 94.0 |
德语 | 73.4 | 97.7 |
希腊语 | 56.5 | 88.9 |
芬兰语 | - | 86.2 |
意大利语 | 86.6 | 97.2 |
韩语 | - | 90.0 |
立陶宛语 | 71.1 | 84.8 |
挪威博克马尔语 | 76.7 | 97.1 |
波兰语 | 87.1 | 93.7 |
葡萄牙语 | 76.7 | 96.9 |
罗马尼亚语 | 81.8 | 95.5 |
瑞典语 | - | 95.5 |
生态更新
自v3.2以来,spaCy生态新增多个插件、扩展、管道和教程,包括:
- Applied Language Technology课程(使用spaCy和Stanza的NLP入门)
- Augmenty(文本增强库)
- classy-classification(少样本和零样本分类库)
- Concise Concepts(基于词嵌入相似度的少样本NER)
- Crosslingual Coreference(跨语言共指解析)
- EDS-NLP(法语临床笔记信息提取)
- eng-spacysentiment(英语情感分析)
- Healthsea(健康补充剂效果分析管道)
- HuSpaCy(匈牙利语NLP处理)
- Klayers(AWS Lambda层支持)
- NER视频教程
- Scrubadub(文本个人信息移除)
- spacypdfreader(PDF文本提取)
- spacy-setfit-textcat(SetFit少样本分类实验)
- spacy-wrap( transformers 模型集成)
- textnets(网络文本分析)
- tmtoolkit(文本挖掘和主题建模工具包)
资源
- spaCy v3.3新特性详解
- 发布说明:详细更新概述
- 模型目录:下载训练管道
- 生态项目:插件与扩展
- 项目模板:端到端NLP工作流
- 视频教程:YouTube深度内容
致谢:感谢Antti Ajanki、Tuomo Hiippala(芬兰语)和Elena Fano(瑞典语)对新管道的贡献。