QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization

作者: Yuhao Xu, Yantai Yang, Zhenyang Fan, Yufan Liu, Yuming Li, Bing Li, Zhipeng Zhang

分类: cs.CV, cs.RO

发布日期: 2026-02-03

备注: ICLR2026

💡 一句话要点

QVLA：针对具身控制，提出动作敏感的VLA模型通道量化框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 量化 模型压缩 具身智能 机器人 通道剪枝 动作空间 资源受限平台

📋 核心要点

现有VLA模型计算量巨大，难以在资源受限的机器人平台上部署，而直接应用LLM的量化方法忽略了动作偏差对任务的影响。
QVLA提出一种以动作为中心的量化框架，通过测量量化每个通道对动作空间的影响，实现细粒度的通道级比特分配。
实验表明，QVLA在保持性能的同时显著降低了VRAM占用，并在LIBERO环境中优于LLM衍生的SmoothQuant方法。

📝 摘要（中文）

视觉-语言-动作(VLA)模型的出现是具身智能的一大进步，但其巨大的计算需求严重阻碍了在资源受限的机器人平台上的部署。低比特量化是一种常见且首选的大规模模型压缩技术。然而，我们发现对VLA模型量化的系统分析基本上是缺乏的。我们认为，将大型语言模型(LLM)的统一比特量化直接应用于机器人技术是有缺陷的，因为这些方法优先考虑被动的数据保真度，而忽略了微小的动作偏差如何累积成灾难性的任务失败。为了弥合这一差距，我们引入了QVLA，这是第一个专门为具身控制设计的以动作为中心的量化框架。与基于LLM的方法的刚性、统一比特量化截然不同，QVLA引入了一种高度精细的、通道级的比特分配策略。其核心机制是直接测量量化每个单独通道到不同比特宽度时最终动作空间的敏感性。这个过程产生了一个精确的、每个通道的重要性指标，该指标指导全局优化，从而优雅地将量化和剪枝(0比特)统一到一个单一的、有凝聚力的框架中。在不同基线上的广泛评估证明了我们方法的优越性。在LIBERO中，使用我们方法的OpenVLA-OFT量化版本仅需要原始模型29.2%的VRAM，同时保持了原始性能的98.9%，并实现了1.49倍的加速。这相当于比LLM衍生的SmoothQuant方法提高了22.6%的性能。我们的工作为压缩机器人中的VLA模型建立了一个新的、有原则的基础，为在真实硬件上部署强大的大型模型铺平了道路。

🔬 方法详解

问题定义：VLA模型在机器人上的部署面临计算资源限制，现有方法如直接应用LLM的量化技术，侧重于数据保真度，忽略了动作空间的敏感性。微小的量化误差可能导致动作偏差，进而导致任务失败。因此，需要一种专门针对VLA模型，并考虑动作影响的量化方法。

核心思路：QVLA的核心在于以动作为中心，通过评估量化每个通道对最终动作的影响，来确定通道的重要性。对动作影响大的通道分配更高的比特数，反之则分配更低的比特数甚至剪枝（0比特）。这种细粒度的通道级比特分配策略能够在保证动作性能的同时，最大程度地压缩模型。

技术框架：QVLA框架主要包含以下几个阶段：1) 动作空间敏感性测量：针对每个通道，评估其量化到不同比特宽度时，对最终动作空间的影响。2) 通道重要性评估：基于动作空间敏感性测量结果，计算每个通道的重要性指标。3) 全局优化：利用通道重要性指标，进行全局比特分配优化，目标是在满足资源约束的条件下，最大化模型性能。该优化过程同时考虑了量化和剪枝。

关键创新：QVLA的关键创新在于其以动作为中心的量化策略。与传统的统一比特量化方法不同，QVLA能够根据每个通道对动作的影响，自适应地分配比特数。这种细粒度的量化方式能够更有效地压缩模型，同时保证动作性能。此外，QVLA将量化和剪枝统一到一个框架中，简化了模型压缩流程。

关键设计：QVLA的关键设计包括：1) 动作空间敏感性度量：具体如何量化动作空间的影响，例如可以通过计算量化前后动作的差异来衡量。2) 通道重要性指标：如何将动作空间敏感性转化为通道重要性指标，例如可以使用敏感性的加权平均值。3) 全局优化算法：如何进行全局比特分配优化，例如可以使用整数规划或贪心算法。4) 损失函数：在训练过程中，可以使用额外的损失函数来约束量化后的模型性能，例如可以使用动作预测的损失函数。

🖼️ 关键图片

📊 实验亮点

QVLA在LIBERO环境中，将OpenVLA-OFT模型的VRAM占用降低到原始模型的29.2%，同时保持了98.9%的原始性能，并实现了1.49倍的加速。与LLM衍生的SmoothQuant方法相比，QVLA的性能提升了22.6%。这些结果表明，QVLA能够有效地压缩VLA模型，并在保持性能的同时显著降低计算资源需求。

🎯 应用场景

QVLA的应用场景广泛，包括但不限于：机器人导航、物体抓取、操作技能学习等。该研究成果能够有效降低VLA模型的计算和存储需求，使其能够在资源受限的机器人平台上部署，从而推动具身智能在实际场景中的应用。未来，QVLA可以进一步扩展到其他类型的具身智能模型，并与其他模型压缩技术相结合，以实现更高的压缩率和性能。

📄 摘要（原文）

The advent of Vision-Language-Action (VLA) models represents a significant leap for embodied intelligence, yet their immense computational demands critically hinder deployment on resource-constrained robotic platforms. Intuitively, low-bit quantization is a prevalent and preferred technique for large-scale model compression. However, we find that a systematic analysis of VLA model's quantization is fundamentally lacking. We argue that naively applying uniform-bit quantization from Large Language Models (LLMs) to robotics is flawed, as these methods prioritize passive data fidelity while ignoring how minor action deviations compound into catastrophic task failures. To bridge this gap, we introduce QVLA, the first action-centric quantization framework specifically designed for embodied control. In a sharp departure from the rigid, uniform-bit quantization of LLM-based methods, QVLA introduces a highly granular, channel-wise bit allocation strategy. Its core mechanism is to directly measure the final action-space sensitivity when quantizing each individual channel to various bit-widths. This process yields a precise, per-channel importance metric that guides a global optimization, which elegantly unifies quantization and pruning (0-bit) into a single, cohesive framework. Extensive evaluations on different baselines demonstrate the superiority of our approach. In the LIBERO, the quantization version of OpenVLA-OFT with our method requires only 29.2% of the original model's VRAM while maintaining 98.9% of its original performance and achieving a 1.49x speedup. This translates to a 22.6% performance improvement over the LLM-derived method SmoothQuant. Our work establishes a new, principled foundation for compressing VLA models in robotics, paving the way for deploying powerful, large-scale models on real-world hardware. Code will be released.

QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理