半二次量化:大模型量化速度提升50倍的新方法
引言
大语言模型(LLM)已经彻底改变了自然语言处理、语音识别和计算机视觉等机器学习子领域,使机器能够以前所未有的准确性和流畅性理解和生成输出。然而,部署LLM最关键的挑战之一是其昂贵的内存需求,包括训练和推理阶段。像bitsandbytes、GPTQ和AWQ这样的量化方法使得使用大型模型(如流行的Llama-2)所需的内存显著减少,使机器学习社区能够使用单个消费级GPU进行卓越的研究。
在本文中,我们提出了一种名为半二次量化(HQQ)的新量化技术。我们的方法不需要校准数据,显著加快了大型模型的量化速度,同时提供与基于校准的方法相竞争的压缩质量。例如,HQQ处理巨大的Llama-2-70B只需不到5分钟,比广泛采用的GPTQ快50倍以上。我们量化为2位的Llama-2-70B在可比内存使用情况下,性能大幅优于全精度Llama-2-13B。
模型量化是在有限资源下部署大型模型和节省成本的关键步骤,这对于LLM的训练和推理都特别相关。像bitsandbytes这样的软件包使得在消费级GPU上使用大型模型成为可能,这对机器学习社区来说是一个改变游戏规则的技术。
在仅权重量化方面,有两类方法:无数据校准技术(如bitsandbytes)仅依赖权重而不使用外部数据,以及基于校准的方法(如GPTQ和AWQ)依赖外部数据集。虽然基于校准的方法提供更好的量化质量,但它们存在两个主要问题:
- 校准数据偏差:量化质量可能受到所提供的校准数据的负面影响
- 量化时间:校准可能是一个繁重的计算过程,特别是对于非常大的模型,这使得测试和部署多个模型变得困难
如果我们能够实现基于校准方法的质