spaCy v2.3发布:新增5种语言模型与性能优化

spaCy v2.3自然语言处理库新增中文、日文等5种语言支持,优化词向量性能并减少模型体积,同时改进训练数据与标注体系,为即将发布的v3版本奠定基础。

新增语言支持

spaCy v2.3提供五种新语言模型:

  • 中文、丹麦语、日语、波兰语、罗马尼亚语
    其中中文和日语模型首次采用外部库(pkuseg/SudachiPy)进行分词,中文模型在OntoNotes数据集上达到94.6%的分词准确率。

模型性能优化

  1. 词向量改进

    • 大模型(lg)包含50万唯一词向量
    • 中模型(md)保留2万高频词向量
    • 采用FastText框架训练(CBOW/300维/5字符n-gram)
    • 立陶宛语NER任务的F值从66%提升至70.1%
  2. 体积与速度

    • 中型模型体积减少50%
    • 英文大模型缩小120MB
    • 带向量模型的加载速度提升2-4倍

技术细节

  • 训练数据:基于Universal Dependencies v2.5更新,荷兰语标注准确率提升3%
  • 词性标注:优化法语等语言的合并标签(如ADP_DET)
  • 兼容性:需通过python -m spacy validate检查旧模型兼容性

生态更新

  • 新增日语/德语/西班牙语在线课程
  • 发布实体链接定制教程
  • 预告v3版本将改进训练配置系统
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计