RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

📄 arXiv: 2603.17891v1 📥 PDF

作者: Arpit Singh Gautam, Saurabh Jha

分类: cs.LG, cs.AI

发布日期: 2026-03-18


💡 一句话要点

提出RAMP以解决大语言模型量化效率问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 量化技术 强化学习 大语言模型 混合精度 边缘计算

📋 核心要点

  1. 现有的量化方法在各层使用统一比特宽度,导致在准确性和效率之间的权衡不理想。
  2. RAMP通过强化学习框架,针对每层自适应分配比特宽度,以最小化困惑度并支持零样本迁移。
  3. 在Llama 2 7B上,RAMP实现了5.54的困惑度,相比于均匀4比特AWQ和GPTQ在大小和质量上均有显著提升。

📝 摘要(中文)

后训练量化对于在资源受限硬件上部署大型语言模型(LLMs)至关重要,但现有方法在各层强制使用统一的比特宽度,导致准确性和效率的权衡不理想。本文提出了RAMP(强化自适应混合精度量化),一种离线策略的软演员评论家框架,学习每层比特宽度分配,以在全球比特预算下最小化困惑度。该策略基于11维的激活统计、权重特性和结构描述符的嵌入,支持跨模型家族和规模的零样本迁移。为实现稳定的低于4比特的量化,本文引入了尺度折叠技术,通过每通道缩放和归一化层补偿将激活异常值迁移到权重中。通过质量优先的奖励机制和不对称惩罚,快速收敛。RAMP在Llama 2 7B上实现了5.54的困惑度,内存占用为3.68GB,超越了均匀4比特AWQ和GPTQ。

🔬 方法详解

问题定义:本文旨在解决在资源受限硬件上部署大型语言模型时,后训练量化方法在准确性和效率之间的权衡问题。现有方法强制使用统一比特宽度,导致量化效果不佳。

核心思路:RAMP采用强化学习框架,学习每层的比特宽度分配,以在给定的比特预算下最小化困惑度。通过对激活统计和权重特性的嵌入,RAMP能够实现跨模型的零样本迁移。

技术框架:RAMP的整体架构包括一个强化学习策略网络,该网络基于11维的特征嵌入进行比特宽度分配。同时,结合尺度折叠技术以处理激活异常值,确保低于4比特的量化稳定性。

关键创新:RAMP的主要创新在于引入了基于强化学习的自适应比特宽度分配策略,突破了传统均匀量化方法的限制,能够根据模型特性进行灵活调整。

关键设计:在设计中,RAMP使用了质量优先的奖励机制和不对称惩罚,以加速收敛。同时,尺度折叠技术通过每通道缩放和归一化层补偿来优化激活值的分布。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RAMP在Llama 2 7B模型上实现了5.54的困惑度,内存占用为3.68GB,较均匀4比特AWQ(5.60困惑度,3.90GB)在模型大小上提升了6%,在质量上提升了1%至3%。此外,RAMP的策略在未见模型上也表现出良好的迁移能力。

🎯 应用场景

RAMP的研究成果在资源受限的设备上部署大型语言模型具有重要的应用价值,尤其是在移动设备和边缘计算场景中。通过提高量化效率,RAMP能够在保持模型性能的同时,显著降低内存占用和计算需求,推动智能设备的普及与应用。

📄 摘要(原文)

Post training quantization is essential for deploying large language models (LLMs) on resource constrained hardware, yet state of the art methods enforce uniform bit widths across layers, yielding suboptimal accuracy efficiency trade offs. We present RAMP (Reinforcement Adaptive Mixed Precision), an off policy Soft Actor Critic framework that learns per layer bit width assignments to minimize perplexity under a global bit budget. The policy conditions on an 11 dimensional embedding of activation statistics, weight properties, and structural descriptors, enabling zero shot transfer across model families and scales. To enable stable sub 4 bit quantization, we introduce Scale Folding, a preconditioning technique that migrates activation outliers into weights via per channel scaling and normalization layer compensation. A quality prioritized reward with asymmetric penalties and budget cliffs drives rapid convergence. On Llama 2 7B, RAMP achieves 5.54 perplexity at 3.68GB (3.65 effective bits), outperforming uniform 4 bit AWQ (5.60 at 3.90 GB) and GPTQ by 6% in size and 1% to3% in quality. Critically, a policy trained only on Llama 2 7B generalizes zero shot to Llama 2 13B and Mistral 7B, often surpassing target specific training, supporting the hypothesis that quantization sensitivity is primarily architectural. The HALO pipeline exports allocations to GGUF format for kernel free inference on CPUs, GPUs, and edge devices, retaining 99.5% of FP16 commonsense reasoning performance.