突破内存限制:梯度小波变换优化大模型训练

本文提出梯度小波变换(GWT)方法,通过小波变换压缩梯度数据,显著降低大语言模型训练时的内存占用,在保持性能的同时实现高效训练,经实验验证优于现有内存优化方法。

突破内存限制:梯度小波变换增强大语言模型训练

大语言模型(LLMs)在自然语言处理任务中展现出卓越性能,但其海量参数在训练过程中(尤其是使用类似Adam等内存密集型优化器时)带来了显著的内存挑战。现有内存高效算法通常依赖于奇异值分解投影或权重冻结等技术,虽然这些方法有助于缓解内存限制,但与全秩更新相比通常产生次优结果。

本文研究了超越低秩训练的内存高效方法,提出了一种称为梯度小波变换(GWT)的新解决方案,通过对梯度应用小波变换来显著减少维护优化器状态所需的内存。研究表明,GWT可以与内存密集型优化器无缝集成,在保持性能的同时实现高效训练。

通过预训练和微调任务的广泛实验证明,在内存使用和训练性能方面,GWT相比先进的内存高效优化器和全秩方法实现了最先进的性能。

主题分类:
机器学习(cs.LG);人工智能(cs.AI)

引用信息:
arXiv:2501.07237 [cs.LG]
https://doi.org/10.48550/arXiv.2501.07237

提交历史:

  • 版本1:2025年1月13日
  • 版本2:2025年7月29日(当前版本)

全文链接:
查看PDF版本 | HTML实验版本

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计