✨ 新特性与改进
- 重构并优化transformer序列化架构,更好地支持内联transformer组件和监听器替换
- 在TransformerData.model_output和FullTransformerBatch.model_output中提供ModelOutput格式的transformer模型输出(向后兼容的元组格式仍可通过TransformerData.tensors和FullTransformerBatch.tensors获取)
- 新增对transformer_config设置的支持(如output_attentions),额外输出存储在TransformerData.model_output中
- 新增混合精度训练支持
- 通过优化分词器输出的内存分配提升训练速度
- 扩展支持transformers最高至v4.11.x版本
🔴 错误修复
- 修复GPT2模型支持问题
⚠️ 向后不兼容变更
- v1.1版本的transformer组件序列化格式已变更,与v1.0.x版本不兼容。使用v1.0.x训练的管道可通过v1.1.x加载,但v1.1.x保存的管道无法通过v1.0.x加载
- TransformerData.tensors和FullTransformerBatch.tensors现在返回元组而非列表
👥 贡献者
@adrianeboyd, @bryant1410, @danieldk, @honnibal, @ines, @KennethEnevoldsen, @svlandeg