新增语言支持
spaCy v2.3提供五种新语言模型:
- 中文、丹麦语、日语、波兰语、罗马尼亚语
其中中文和日语模型首次采用外部库(pkuseg/SudachiPy)进行分词,中文模型在OntoNotes数据集上达到94.6%的分词准确率。
模型性能优化
-
词向量改进:
- 大模型(lg)包含50万唯一词向量
- 中模型(md)保留2万高频词向量
- 采用FastText框架训练(CBOW/300维/5字符n-gram)
- 立陶宛语NER任务的F值从66%提升至70.1%
-
体积与速度:
- 中型模型体积减少50%
- 英文大模型缩小120MB
- 带向量模型的加载速度提升2-4倍
技术细节
- 训练数据:基于Universal Dependencies v2.5更新,荷兰语标注准确率提升3%
- 词性标注:优化法语等语言的合并标签(如ADP_DET)
- 兼容性:需通过
python -m spacy validate
检查旧模型兼容性
生态更新
- 新增日语/德语/西班牙语在线课程
- 发布实体链接定制教程
- 预告v3版本将改进训练配置系统