主要更新内容
基于分词器偏移映射的对齐优化 (#338)
对于快速分词器,现采用分词器提供的偏移映射(offset mapping)替代原spacy-alignments的启发式对齐方法。此项改进解决了以下问题:
- 意外对齐异常(如explosion/spaCy#6563)
- 缺失对齐问题(如explosion/spaCy#10794、explosion/spaCy#12023)
⚠️ 兼容性说明:由于转换器令牌与spaCy令牌间对齐方式的潜在差异,慢速与快速分词器将不再产生完全相同的结果。建议所有模型使用快速分词器重新训练,以确保与spacy-transformers v1.2的兼容性。
分词器use_fast设置序列化 (#339)
新增对分词器use_fast配置参数的序列化支持,确保模型保存与加载时保持一致的分词器行为模式。
技术实现细节
- 采用精确的偏移映射机制替代启发式算法
- 通过序列化保持分词器配置一致性
- 优化令牌对齐精度,减少边界情况错误
影响范围
- 使用快速分词器的现有模型需要重新训练
- 慢速/快速分词器输出结果可能出现差异
- 模型序列化将包含分词器类型配置信息