spaCy v2.3发布：新增5种语言模型与性能优化

spaCy v2.3提供五种新语言模型：

中文、丹麦语、日语、波兰语、罗马尼亚语
其中中文和日语模型首次采用外部库（pkuseg/SudachiPy）进行分词，中文模型在OntoNotes数据集上达到94.6%的分词准确率。

词向量改进：
- 大模型（lg）包含50万唯一词向量
- 中模型（md）保留2万高频词向量
- 采用FastText框架训练（CBOW/300维/5字符n-gram）
- 立陶宛语NER任务的F值从66%提升至70.1%
体积与速度：
- 中型模型体积减少50%
- 英文大模型缩小120MB
- 带向量模型的加载速度提升2-4倍