RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models

作者: Yuxuan Chen, Xiao Li

分类: cs.RO, cs.AI

发布日期: 2025-06-21

💡 一句话要点

提出RLRC，用于压缩视觉-语言-动作模型，提升机器人操作任务的部署效率。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 模型压缩 结构化剪枝 强化学习 机器人操作

📋 核心要点

VLA模型参数量大，推理延迟高，难以在资源受限的机器人平台上部署。
提出RLRC方法，通过剪枝、SFT和RL恢复、量化三个阶段压缩VLA模型。
实验表明，RLRC能显著降低内存占用和提升推理速度，同时保持甚至提升任务成功率。

📝 摘要（中文）

视觉-语言-动作模型(VLA)在解决复杂的机器人操作任务中展现了卓越的能力和潜力。然而，它们庞大的参数规模和高推理延迟对实际部署提出了重大挑战，尤其是在资源受限的机器人平台上。为了解决这个问题，我们首先进行了一项广泛的实证研究，以探索模型压缩技术应用于VLA时的有效性。基于这些初步实验中获得的见解，我们提出了一种用于压缩VLA的三阶段恢复方法RLRC，包括结构化剪枝、基于SFT和RL的性能恢复以及进一步的量化。RLRC实现了高达8倍的内存使用量减少和2.3倍的推理吞吐量提升，同时保持甚至超过了原始VLA的任务成功率。大量实验表明，RLRC始终优于现有的压缩基线，展示了VLA在设备上部署的强大潜力。

🔬 方法详解

问题定义：论文旨在解决视觉-语言-动作模型（VLA）在机器人平台上部署时面临的挑战，即模型体积大、推理速度慢的问题。现有方法在压缩VLA模型时，往往会导致性能显著下降，难以满足实际应用需求。因此，如何在保证甚至提升模型性能的前提下，有效压缩VLA模型，是本研究要解决的核心问题。

核心思路：论文的核心思路是结合结构化剪枝、监督微调（SFT）和强化学习（RL）的优势，分阶段地对压缩后的VLA模型进行性能恢复。结构化剪枝用于降低模型复杂度，SFT用于快速恢复模型的基本性能，RL则用于进一步优化模型在特定任务上的表现。这种多阶段恢复策略旨在克服单一压缩方法的局限性，实现更高效的模型压缩。

技术框架：RLRC方法包含三个主要阶段：1) 结构化剪枝：使用预定义的剪枝策略，移除VLA模型中不重要的连接或神经元，降低模型参数量。2) 基于SFT和RL的性能恢复：首先使用监督微调（SFT）在大量数据集上对剪枝后的模型进行训练，快速恢复模型的基本性能。然后，利用强化学习（RL）进一步优化模型在特定机器人操作任务上的表现，通过奖励函数引导模型学习更有效的策略。3) 量化：对恢复后的模型进行量化，进一步降低模型体积和推理延迟。

关键创新：RLRC的关键创新在于将SFT和RL相结合，用于压缩后VLA模型的性能恢复。SFT能够快速恢复模型的基本性能，而RL则能够针对特定任务进行优化，从而在保证模型性能的同时，实现更高的压缩率。此外，RLRC采用结构化剪枝，避免了非结构化剪枝带来的硬件加速困难。

关键设计：在SFT阶段，使用大量的机器人操作数据进行微调，损失函数采用交叉熵损失。在RL阶段，设计合适的奖励函数，鼓励模型完成任务并避免碰撞。具体而言，奖励函数可以包括任务完成奖励、时间惩罚和碰撞惩罚。网络结构方面，RLRC可以应用于各种VLA模型，例如基于Transformer的模型。剪枝率的选择需要根据具体任务和模型进行调整，通常需要进行实验来确定最佳的剪枝率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RLRC方法能够将VLA模型的内存使用量降低高达8倍，推理吞吐量提升2.3倍，同时保持甚至超过原始VLA模型的任务成功率。与现有的压缩基线相比，RLRC在各项指标上均表现出显著优势，证明了其在VLA模型压缩方面的有效性和优越性。例如，在某个机器人操作任务上，RLRC压缩后的模型成功率与原始模型相当，但推理速度提升了2倍以上。

🎯 应用场景

该研究成果可广泛应用于资源受限的机器人平台，例如移动机器人、无人机和嵌入式机器人等。通过压缩VLA模型，可以降低机器人硬件成本，提高机器人的自主性和智能化水平，使其能够执行更复杂的任务，例如家庭服务、工业自动化和灾难救援等。此外，该方法还可以应用于其他视觉-语言任务，例如图像描述和视觉问答等。

📄 摘要（原文）

Vision-Language-Action models (VLA) have demonstrated remarkable capabilities and promising potential in solving complex robotic manipulation tasks. However, their substantial parameter sizes and high inference latency pose significant challenges for real-world deployment, particularly on resource-constrained robotic platforms. To address this issue, we begin by conducting an extensive empirical study to explore the effectiveness of model compression techniques when applied to VLAs. Building on the insights gained from these preliminary experiments, we propose RLRC, a three-stage recovery method for compressed VLAs, including structured pruning, performance recovery based on SFT and RL, and further quantization. RLRC achieves up to an 8x reduction in memory usage and a 2.3x improvement in inference throughput, while maintaining or even surpassing the original VLA's task success rate. Extensive experiments show that RLRC consistently outperforms existing compression baselines, demonstrating strong potential for on-device deployment of VLAs. Project website: https://rlrc-vla.github.io

RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理