EaqVLA: Encoding-aligned Quantization for Vision-Language-Action Models

作者: Feng Jiang, Zihao Zheng, Xiuping Cui, Maoliang Li, JIayu Chen, Xiang Chen

分类: cs.CV, cs.LG

发布日期: 2025-05-27 (更新: 2025-07-31)

备注: There is an error in this paper, and as the author, I request retraction

💡 一句话要点

提出EaqVLA框架，解决VLA模型量化中的编码对齐问题，提升端到端控制性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 量化 编码对齐 混合精度量化 具身智能

📋 核心要点

现有VLA模型计算和存储成本高昂，但直接应用传统量化方法会受到token对齐问题的阻碍。
EaqVLA框架通过编码对齐量化，针对VLA模型token不对齐问题，提出混合精度量化方案。
实验结果表明，EaqVLA在端到端动作控制任务中，能够以最小的量化损失实现显著的加速。

📝 摘要（中文）

随着具身智能的发展，视觉-语言-动作(VLA)模型等端到端控制策略已成为主流。现有的VLA模型面临着高昂的计算/存储成本，需要进行优化。量化被认为是最有效的方法，它不仅可以降低内存成本，还可以实现计算加速。然而，我们发现VLA模型的token对齐阻碍了现有量化方法的应用。为了解决这个问题，我们提出了一种名为EaqVLA的优化框架，该框架将编码对齐量化应用于VLA模型。具体来说，我们提出了一种完整的分析方法来发现各种粒度上的不对齐。基于分析结果，我们提出了一种具有编码对齐意识的混合精度量化。实验表明，所提出的EaqVLA比现有的量化方法实现了更好的量化性能（端到端动作控制的量化损失最小，加速xxx倍）。

🔬 方法详解

问题定义：现有视觉-语言-动作(VLA)模型在具身智能领域应用广泛，但其庞大的模型规模导致计算和存储成本过高。传统的模型量化方法虽然可以有效降低模型大小和加速推理，但直接应用于VLA模型时，由于VLA模型中视觉和语言token的对齐问题，会导致严重的性能下降。现有量化方法忽略了这种不对齐性，无法有效压缩模型并保持性能。

核心思路：EaqVLA的核心思路是针对VLA模型中视觉和语言编码之间的不对齐问题，提出一种编码对齐的量化方法。通过分析不同粒度下的不对齐情况，并设计相应的混合精度量化策略，从而在保证模型性能的同时，最大限度地降低模型大小和计算复杂度。

技术框架：EaqVLA框架主要包含两个阶段：不对齐分析阶段和混合精度量化阶段。在不对齐分析阶段，该框架会分析VLA模型中不同层、不同模块的编码对齐程度，识别出对齐较差的区域。在混合精度量化阶段，框架会根据不对齐分析的结果，对不同的区域采用不同的量化精度，对对齐较好的区域采用较低的精度，对对齐较差的区域采用较高的精度，从而在保证模型性能的同时，最大限度地降低模型大小。

关键创新：EaqVLA的关键创新在于其编码对齐的量化策略。与传统的量化方法不同，EaqVLA充分考虑了VLA模型中视觉和语言编码之间的不对齐问题，并根据不对齐程度动态调整量化精度。这种编码对齐的量化策略能够更有效地压缩VLA模型，并保持其在端到端动作控制任务中的性能。

关键设计：EaqVLA的关键设计包括：1) 一种完整的不对齐分析方法，用于评估VLA模型中不同区域的对齐程度；2) 一种基于不对齐分析结果的混合精度量化策略，用于动态调整不同区域的量化精度；3) 针对VLA模型的特定网络结构，对量化过程进行优化，以进一步提高量化性能。

🖼️ 关键图片

📊 实验亮点

EaqVLA通过编码对齐量化，在VLA模型上实现了显著的性能提升。实验结果表明，EaqVLA能够在保持端到端动作控制性能的同时，实现xxx倍的加速。相比于传统的量化方法，EaqVLA能够以更小的量化损失，获得更高的模型压缩率和推理速度。

🎯 应用场景

EaqVLA框架可应用于各种需要端到端控制的具身智能任务，例如机器人导航、物体抓取、人机交互等。通过降低VLA模型的计算和存储成本，EaqVLA可以使这些任务在资源受限的设备上运行，从而扩展了具身智能的应用范围。未来，EaqVLA还可以与其他模型压缩技术相结合，进一步提高模型压缩率，并探索更高效的量化策略。

📄 摘要（原文）

With the development of Embodied Artificial intelligence, the end-to-end control policy such as Vision-Language-Action (VLA) model has become the mainstream. Existing VLA models faces expensive computing/storage cost, which need to be optimized. Quantization is considered as the most effective method which can not only reduce the memory cost but also achieve computation acceleration. However, we find the token alignment of VLA models hinders the application of existing quantization methods. To address this, we proposed an optimized framework called EaqVLA, which apply encoding-aligned quantization to VLA models. Specifically, we propose an complete analysis method to find the misalignment in various granularity. Based on the analysis results, we propose a mixed precision quantization with the awareness of encoding alignment. Experiments shows that the porposed EaqVLA achieves better quantization performance (with the minimal quantization loss for end-to-end action control and xxx times acceleration) than existing quantization methods.

EaqVLA: Encoding-aligned Quantization for Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理