半二次量化：大模型量化速度提升50倍的新方法

引言

大语言模型(LLM)已经彻底改变了自然语言处理、语音识别和计算机视觉等机器学习子领域，使机器能够以前所未有的准确性和流畅性理解和生成输出。然而，部署LLM最关键的挑战之一是其昂贵的内存需求，包括训练和推理阶段。像bitsandbytes、GPTQ和AWQ这样的量化方法使得使用大型模型（如流行的Llama-2）所需的内存显著减少，使机器学习社区能够使用单个消费级GPU进行卓越的研究。

在本文中，我们提出了一种名为半二次量化(HQQ)的新量化技术。我们的方法不需要校准数据，显著加快了大型模型的量化速度，同时提供与基于校准的方法相竞争的压缩质量。例如，HQQ处理巨大的Llama-2-70B只需不到5分钟，比广泛采用的GPTQ快50倍以上。我们量化为2位的Llama-2-70B在可比内存使用情况下，性能大幅优于全精度Llama-2-13B。

模型量化是在有限资源下部署大型模型和节省成本的关键步骤，这对于LLM的训练和推理都特别相关。像bitsandbytes这样的软件包使得在消费级GPU上使用大型模型成为可能，这对机器学习社区来说是一个改变游戏规则的技术。

在仅权重量化方面，有两类方法：无数据校准技术（如bitsandbytes）仅依赖权重而不使用外部数据，以及基于校准的方法（如GPTQ和AWQ）依赖外部数据集。虽然基于校准的方法提供更好的量化质量，但它们存在两个主要问题：

校准数据偏差：量化质量可能受到所提供的校准数据的负面影响
量化时间：校准可能是一个繁重的计算过程，特别是对于非常大的模型，这使得测试和部署多个模型变得困难

如果我们能够实现基于校准方法的质