半二次量化:大模型量化速度提升50倍的新方法

本文介绍了一种名为半二次量化(HQQ)的新型模型量化技术,无需校准数据即可在几分钟内完成大型语言模型的量化,速度比GPTQ快50倍以上,同时在2位量化下性能仍优于全精度小模型。

半二次量化:大模型量化速度提升50倍的新方法

引言

大语言模型(LLM)已经彻底改变了自然语言处理、语音识别和计算机视觉等机器学习子领域,使机器能够以前所未有的准确性和流畅性理解和生成输出。然而,部署LLM最关键的挑战之一是其昂贵的内存需求,包括训练和推理阶段。像bitsandbytes、GPTQ和AWQ这样的量化方法使得使用大型模型(如流行的Llama-2)所需的内存显著减少,使机器学习社区能够使用单个消费级GPU进行卓越的研究。

在本文中,我们提出了一种名为半二次量化(HQQ)的新量化技术。我们的方法不需要校准数据,显著加快了大型模型的量化速度,同时提供与基于校准的方法相竞争的压缩质量。例如,HQQ处理巨大的Llama-2-70B只需不到5分钟,比广泛采用的GPTQ快50倍以上。我们量化为2位的Llama-2-70B在可比内存使用情况下,性能大幅优于全精度Llama-2-13B。

模型量化是在有限资源下部署大型模型和节省成本的关键步骤,这对于LLM的训练和推理都特别相关。像bitsandbytes这样的软件包使得在消费级GPU上使用大型模型成为可能,这对机器学习社区来说是一个改变游戏规则的技术。

在仅权重量化方面,有两类方法:无数据校准技术(如bitsandbytes)仅依赖权重而不使用外部数据,以及基于校准的方法(如GPTQ和AWQ)依赖外部数据集。虽然基于校准的方法提供更好的量化质量,但它们存在两个主要问题:

  • 校准数据偏差:量化质量可能受到所提供的校准数据的负面影响
  • 量化时间:校准可能是一个繁重的计算过程,特别是对于非常大的模型,这使得测试和部署多个模型变得困难

如果我们能够实现基于校准方法的质

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计