✨ 新特性与改进
- 完全重写包结构,采用纯Python实现
- 使用某机构的Vectors替代内置向量存储,支持开箱即用的向量序列化
- 新增可序列化的spaCy管道组件和扩展属性
- 添加
get_best_sense
和get_other_senses
方法,优化most_similar
功能 - 提供预计算最近邻索引脚本,实现超高速相似查询
- 新增Prodigy标注方案,可通过sense2vec向量从相似短语快速创建词表和匹配模式(类似terms.teach方案,支持多词表达式)
- 基于GloVe和fastText的高效训练与预处理脚本
⚠️ 向后不兼容变更
- 移除
sense2vec.load
方法,改用Sense2Vec.from_disk
- 移除旧版VectorMap和VectorStorage
- 要求Python 3.6+环境
- 需要使用新版向量格式(详见附件文件)
📖 文档与示例
👥 贡献者
感谢@kabirkhan贡献初始Prodigy方案!
📦 资源文件
- s2v_reddit_2015_md.tar.gz (573MB)
- s2v_reddit_2019_lg.tar.gz.001 (1.4GB)
- s2v_reddit_2019_lg.tar.gz.002 (1.4GB)
- s2v_reddit_2019_lg.tar.gz.003 (737MB)
- 源代码(zip/tar.gz格式)