spaCy v3.6 发布
2023年7月7日
3分钟阅读
跨度查找器组件
跨度查找器组件通过识别跨度起始和结束标记来识别潜在重叠的无标签跨度。该组件设计用于与类似跨度分类器的组件结合使用,后者可进一步过滤或标记这些跨度。
要训练包含 span_finder + spancat 的管道,需将 span_finder(及其所需的 tok2vec 或转换器)添加到 [training.annotating_components] 中,以便跨度分类器组件能直接根据预测进行训练:
|
|
语言更新
- 新增马来语初步支持
- 优化拉丁语名词块及其他更新
训练管道
v3.6 新增斯洛文尼亚语训练管道,采用可训练词形还原器和 floret 向量技术:
| 包名 | UPOS | 解析器 LAS | NER F1 |
|---|---|---|---|
| sl_core_news_sm | 96.9 | 82.1 | 62.9 |
| sl_core_news_md | 97.6 | 84.3 | 73.5 |
| sl_core_news_lg | 97.7 | 84.3 | 79.0 |
| sl_core_news_trf | 99.0 | 91.7 | 90.0 |
管道优化
英语管道更新内容包括:
- 改进多种撇号收缩形式的处理
- 将“get”作为被动辅助词进行词形还原
生态扩展
自 v3.5 以来新增的插件与扩展:
- LatinCy:拉丁语自然语言处理合成训练管道
- parsigs:基于spaCy的处方文本结构化工具
- Sentimental Onix:ONNX情感模型支持
- spaCysee:依赖解析、词性标注与形态分析可视化工具
- spaCy-SetFit:SetFit与spaCy集成方案
- VS Code扩展:配置文件编辑支持
- spacy-wasm:基于WebAssembly的浏览器端运行方案
- SpanMarker:高性能命名实体识别组件
- Vetiver:模型版本管理与部署监控工具
资源链接
- 版本特性详解
- 完整发布说明
- 训练管道下载目录
- 生态项目展示页
- 端到端工作流模板
- YouTube深度教程