Sense2Vec v1.0.0发布:重构升级与spaCy集成

Sense2Vec v1.0.0版本全面重构,支持spaCy v2.2并新增序列化管道组件。包含2019年词向量模型、Prodigy标注方案及高效训练脚本,提供快速相似查询和多义词处理能力。

✨ 新特性与改进

  • 完全重写包结构,采用纯Python实现
  • 使用某机构的Vectors替代内置向量存储,支持开箱即用的向量序列化
  • 新增可序列化的spaCy管道组件和扩展属性
  • 添加get_best_senseget_other_senses方法,优化most_similar功能
  • 提供预计算最近邻索引脚本,实现超高速相似查询
  • 新增Prodigy标注方案,可通过sense2vec向量从相似短语快速创建词表和匹配模式(类似terms.teach方案,支持多词表达式)
  • 基于GloVe和fastText的高效训练与预处理脚本

⚠️ 向后不兼容变更

  • 移除sense2vec.load方法,改用Sense2Vec.from_disk
  • 移除旧版VectorMap和VectorStorage
  • 要求Python 3.6+环境
  • 需要使用新版向量格式(详见附件文件)

📖 文档与示例

👥 贡献者

感谢@kabirkhan贡献初始Prodigy方案!

📦 资源文件

  • s2v_reddit_2015_md.tar.gz (573MB)
  • s2v_reddit_2019_lg.tar.gz.001 (1.4GB)
  • s2v_reddit_2019_lg.tar.gz.002 (1.4GB)
  • s2v_reddit_2019_lg.tar.gz.003 (737MB)
  • 源代码(zip/tar.gz格式)
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计