突破内存限制:梯度小波变换增强大语言模型训练
大语言模型(LLMs)在自然语言处理任务中展现出卓越性能,但其海量参数在训练过程中(尤其是使用类似Adam等内存密集型优化器时)带来了显著的内存挑战。现有内存高效算法通常依赖于奇异值分解投影或权重冻结等技术,虽然这些方法有助于缓解内存限制,但与全秩更新相比通常产生次优结果。
本文研究了超越低秩训练的内存高效方法,提出了一种称为梯度小波变换(GWT)的新解决方案,通过对梯度应用小波变换来显著减少维护优化器状态所需的内存。研究表明,GWT可以与内存密集型优化器无缝集成,在保持性能的同时实现高效训练。
通过预训练和微调任务的广泛实验证明,在内存使用和训练性能方面,GWT相比先进的内存高效优化器和全秩方法实现了最先进的性能。
主题分类:
机器学习(cs.LG);人工智能(cs.AI)
引用信息:
arXiv:2501.07237 [cs.LG]
https://doi.org/10.48550/arXiv.2501.07237
提交历史:
- 版本1:2025年1月13日
- 版本2:2025年7月29日(当前版本)