自然语言处理框架升级与优化

Sat, 20 Sep 2025 03:12:37 +0800

重构并优化transformer序列化架构，更好地支持内联transformer组件和监听器替换
在TransformerData.model_output和FullTransformerBatch.model_output中提供ModelOutput格式的transformer模型输出（向后兼容的元组格式仍可通过TransformerData.tensors和FullTransformerBatch.tensors获取）
新增对transformer_config设置的支持（如output_attentions），额外输出存储在TransformerData.model_output中
新增混合精度训练支持
通过优化分词器输出的内存分配提升训练速度
扩展支持transformers最高至v4.11.x版本

v1.1版本的transformer组件序列化格式已变更，与v1.0.x版本不兼容。使用v1.0.x训练的管道可通过v1.1.x加载，但v1.1.x保存的管道无法通过v1.0.x加载
TransformerData.tensors和FullTransformerBatch.tensors现在返回元组而非列表

@adrianeboyd, @bryant1410, @danieldk, @honnibal, @ines, @KennethEnevoldsen, @svlandeg

快速分词器对齐优化与序列化改进

Thu, 11 Sep 2025 03:21:45 +0800

对于快速分词器，现采用分词器提供的偏移映射（offset mapping）替代原spacy-alignments的启发式对齐方法。此项改进解决了以下问题：