spaCy v3.4发布:NLP库重大升级与性能优化

spaCy v3.4自然语言处理库发布,包含类型系统改进、速度优化、克罗地亚语新训练管道和升级的英文词向量。支持pydantic v1.9和mypy 0.950+,解析器速度提升,新增预构建Linux aarch64轮子。

spaCy v3.4 发布

2022年7月12日
3分钟阅读

某机构正式发布spaCy自然语言处理库v3.4版本。该版本带来类型系统改进和速度优化,新增英文管道词向量及克罗地亚语训练管道,同时包含由某机构分发的所有spaCy依赖项的预构建Linux aarch64轮子。

类型系统改进

spaCy v3.4通过Thinc v8.1中全面的类型更新,支持pydantic v1.9和mypy 0.950+。

速度优化

  • 解析器使用Ops实现提供的C saxpy/sgemm,通过thinc-apple-ops调用Accelerate
  • 向量查找速度提升
  • Example.get_aligned_parse和Example.get_aligned方法性能优化

训练管道

新增训练管道

v3.4推出克罗地亚语CPU/CNN管道,采用可训练词形还原器和floret向量。基于Bloom嵌入和子词技术,管道具备紧凑的向量表示且无未登录词。

包名 UPOS 解析器LAS NER F1
hr_core_news_sm 96.6 77.5 76.1
hr_core_news_md 97.3 80.1 81.8
hr_core_news_lg 97.5 80.4 83.0

管道更新

  • 所有CNN管道增加空白增强功能
  • 英文CNN管道更新词向量,提升NER性能并新增"AirTags"、“Brexit”、“covid"等词汇
包名 模型版本 TAG 解析器LAS NER F1
en_core_web_md v3.3.0 97.3 90.1 84.6
en_core_web_md v3.4.0 97.2 90.3 85.5
en_core_web_lg v3.3.0 97.4 90.1 85.3
en_core_web_lg v3.4.0 97.3 90.2 85.6

生态更新

自v3.3以来新增多项生态组件:

  • Aim-spacy: 基于Aim的实验跟踪器
  • Asent: 快速灵活的情感分析工具
  • spaCy fishing: 基于Entity-Fishing的维基数据实体消歧与链接
  • spacy-report: 生成交互式模型报告

资源

  • 版本特性说明
  • 详细发布说明
  • 训练管道下载目录
  • 项目模板与端到端NLP工作流
  • YouTube深度教程

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计