spaCy v3.6发布:新增跨度识别与斯洛文尼亚语支持

spaCy v3.6自然语言处理库正式发布,新增跨度查找器组件支持重叠无标签文本跨度识别,新增斯洛文尼亚语训练管道,优化英语管道收缩处理与被动辅助词还原,并扩展多语言支持与生态系统工具。

spaCy v3.6 发布

2023年7月7日
3分钟阅读

跨度查找器组件

跨度查找器组件通过识别跨度起始和结束标记来识别潜在重叠的无标签跨度。该组件设计用于与类似跨度分类器的组件结合使用,后者可进一步过滤或标记这些跨度。

要训练包含 span_finder + spancat 的管道,需将 span_finder(及其所需的 tok2vec 或转换器)添加到 [training.annotating_components] 中,以便跨度分类器组件能直接根据预测进行训练:

1
2
3
4
5
[nlp]
pipeline = ["tok2vec","span_finder","spancat"]

[training]
annotating_components = ["tok2vec","span_finder"]

语言更新

  • 新增马来语初步支持
  • 优化拉丁语名词块及其他更新

训练管道

v3.6 新增斯洛文尼亚语训练管道,采用可训练词形还原器和 floret 向量技术:

包名 UPOS 解析器 LAS NER F1
sl_core_news_sm 96.9 82.1 62.9
sl_core_news_md 97.6 84.3 73.5
sl_core_news_lg 97.7 84.3 79.0
sl_core_news_trf 99.0 91.7 90.0

管道优化

英语管道更新内容包括:

  • 改进多种撇号收缩形式的处理
  • 将“get”作为被动辅助词进行词形还原

生态扩展

自 v3.5 以来新增的插件与扩展:

  • LatinCy:拉丁语自然语言处理合成训练管道
  • parsigs:基于spaCy的处方文本结构化工具
  • Sentimental Onix:ONNX情感模型支持
  • spaCysee:依赖解析、词性标注与形态分析可视化工具
  • spaCy-SetFit:SetFit与spaCy集成方案
  • VS Code扩展:配置文件编辑支持
  • spacy-wasm:基于WebAssembly的浏览器端运行方案
  • SpanMarker:高性能命名实体识别组件
  • Vetiver:模型版本管理与部署监控工具

资源链接

  • 版本特性详解
  • 完整发布说明
  • 训练管道下载目录
  • 生态项目展示页
  • 端到端工作流模板
  • YouTube深度教程
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计