快速分词器对齐优化与序列化改进

本次发布针对快速分词器的偏移映射机制进行优化,替代原有的启发式对齐方法,解决意外缺失对齐问题。同时实现分词器use_fast设置的序列化支持,建议用户使用快速分词器重新训练模型以确保兼容性。

主要更新内容

基于分词器偏移映射的对齐优化 (#338)

对于快速分词器,现采用分词器提供的偏移映射(offset mapping)替代原spacy-alignments的启发式对齐方法。此项改进解决了以下问题:

  • 意外对齐异常(如explosion/spaCy#6563)
  • 缺失对齐问题(如explosion/spaCy#10794、explosion/spaCy#12023)

⚠️ 兼容性说明:由于转换器令牌与spaCy令牌间对齐方式的潜在差异,慢速与快速分词器将不再产生完全相同的结果。建议所有模型使用快速分词器重新训练,以确保与spacy-transformers v1.2的兼容性。

分词器use_fast设置序列化 (#339)

新增对分词器use_fast配置参数的序列化支持,确保模型保存与加载时保持一致的分词器行为模式。

技术实现细节

  • 采用精确的偏移映射机制替代启发式算法
  • 通过序列化保持分词器配置一致性
  • 优化令牌对齐精度,减少边界情况错误

影响范围

  • 使用快速分词器的现有模型需要重新训练
  • 慢速/快速分词器输出结果可能出现差异
  • 模型序列化将包含分词器类型配置信息
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计