突破内存限制：梯度小波变换增强大语言模型训练

大语言模型（LLMs）在自然语言处理任务中展现出卓越性能，但其海量参数在训练过程中（尤其是使用类似Adam等内存密集型优化器时）带来了显著的内存挑战。现有内存高效算法通常依赖于奇异值分解投影或权重冻结等技术，虽然这些方法有助于缓解内存限制，但与全秩更新相比通常产生次优结果。

本文研究了超越低秩训练的内存高效方法，提出了一种称为梯度小波变换（GWT）的新解决方案，通过对梯度应用小波变换来显著减少维护优化器状态所需的内存。研究表明，GWT可以与内存密集型优化器无缝集成，在保持性能的同时实现高效训练。

通过预训练和微调任务的广泛实验证明，在内存使用和训练性能方面，GWT相比先进的内存高效优化器和全秩方法实现了最先进的性能。