spaCy v3.4 发布
2022年7月12日
3分钟阅读
某机构正式发布spaCy自然语言处理库v3.4版本。该版本带来类型系统改进和速度优化,新增英文管道词向量及克罗地亚语训练管道,同时包含由某机构分发的所有spaCy依赖项的预构建Linux aarch64轮子。
类型系统改进
spaCy v3.4通过Thinc v8.1中全面的类型更新,支持pydantic v1.9和mypy 0.950+。
速度优化
- 解析器使用Ops实现提供的C saxpy/sgemm,通过thinc-apple-ops调用Accelerate
- 向量查找速度提升
- Example.get_aligned_parse和Example.get_aligned方法性能优化
训练管道
新增训练管道
v3.4推出克罗地亚语CPU/CNN管道,采用可训练词形还原器和floret向量。基于Bloom嵌入和子词技术,管道具备紧凑的向量表示且无未登录词。
| 包名 | UPOS | 解析器LAS | NER F1 |
|---|---|---|---|
| hr_core_news_sm | 96.6 | 77.5 | 76.1 |
| hr_core_news_md | 97.3 | 80.1 | 81.8 |
| hr_core_news_lg | 97.5 | 80.4 | 83.0 |
管道更新
- 所有CNN管道增加空白增强功能
- 英文CNN管道更新词向量,提升NER性能并新增"AirTags"、“Brexit”、“covid"等词汇
| 包名 | 模型版本 | TAG | 解析器LAS | NER F1 |
|---|---|---|---|---|
| en_core_web_md | v3.3.0 | 97.3 | 90.1 | 84.6 |
| en_core_web_md | v3.4.0 | 97.2 | 90.3 | 85.5 |
| en_core_web_lg | v3.3.0 | 97.4 | 90.1 | 85.3 |
| en_core_web_lg | v3.4.0 | 97.3 | 90.2 | 85.6 |
生态更新
自v3.3以来新增多项生态组件:
- Aim-spacy: 基于Aim的实验跟踪器
- Asent: 快速灵活的情感分析工具
- spaCy fishing: 基于Entity-Fishing的维基数据实体消歧与链接
- spacy-report: 生成交互式模型报告
资源
- 版本特性说明
- 详细发布说明
- 训练管道下载目录
- 项目模板与端到端NLP工作流
- YouTube深度教程