RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

作者: Jacky Kwok, Christopher Agia, Rohan Sinha, Matt Foutter, Shulu Li, Ion Stoica, Azalia Mirhoseini, Marco Pavone

分类: cs.RO, cs.AI, eess.SY

发布日期: 2025-06-21 (更新: 2025-07-07)

💡 一句话要点

RoboMonkey：通过测试时采样与验证提升视觉-语言-动作模型的鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 测试时扩展 采样与验证 鲁棒性 视觉语言模型

📋 核心要点

VLA模型在真实世界环境中面临鲁棒性挑战，现有方法难以保证其在复杂环境下的可靠性。
RoboMonkey通过采样生成动作提议分布，并利用VLM验证器选择最优动作，实现测试时性能提升。
实验表明，RoboMonkey在分布内和分布外任务中均能显著提升VLA性能，并能有效适应新的机器人设置。

📝 摘要（中文）

视觉-语言-动作(VLA)模型在视觉运动控制方面表现出卓越的能力，但确保其在非结构化真实世界环境中的鲁棒性仍然是一个持续的挑战。本文从采样和验证的角度研究了测试时扩展，以此来增强VLA的鲁棒性和泛化能力。我们首先证明了动作误差与生成的样本数量之间的关系遵循VLA范围内的一个指数幂定律，表明存在推理时扩展定律。基于这些见解，我们引入了RoboMonkey，一个用于VLA的测试时扩展框架。在部署时，RoboMonkey从VLA中采样一小组动作，应用高斯扰动和多数投票来构建动作提议分布，然后使用基于视觉语言模型(VLM)的验证器来选择最佳动作。我们提出了一个合成数据生成管道来训练这种基于VLM的动作验证器，并证明了扩展合成数据集能够持续提高验证和下游准确性。通过广泛的模拟和硬件实验，我们表明将现有VLA与RoboMonkey配对可以产生显著的性能提升，在分布外任务上实现了25%的绝对改进，在分布内任务上实现了9%的改进。此外，在适应新的机器人设置时，我们表明微调VLA和动作验证器比单独微调VLA产生7%的性能提升。

🔬 方法详解

问题定义：论文旨在解决视觉-语言-动作（VLA）模型在真实世界环境中鲁棒性不足的问题。现有VLA模型在训练数据分布内表现良好，但在分布外（out-of-distribution）场景下泛化能力较差，容易出现动作错误，导致任务失败。现有方法通常依赖于增加训练数据或改进模型架构，但难以有效应对真实世界环境的复杂性和多样性。

核心思路：论文的核心思路是通过测试时采样和验证来提升VLA模型的鲁棒性。具体来说，RoboMonkey框架首先从VLA模型中采样多个可能的动作，然后对这些动作进行扰动和融合，生成一个动作提议分布。最后，利用一个基于视觉语言模型（VLM）的验证器从该分布中选择最优动作。这种方法的核心在于利用VLM的强大视觉理解能力来评估动作的合理性，从而减少动作错误。

技术框架：RoboMonkey框架包含以下几个主要模块：1) VLA模型：作为动作生成的初始来源。2) 采样模块：从VLA模型中采样多个动作。3) 扰动模块：对采样得到的动作进行高斯扰动，增加动作的多样性。4) 融合模块：使用多数投票等方法将扰动后的动作融合为一个动作提议分布。5) VLM验证器：基于视觉和语言信息，评估动作提议分布中每个动作的合理性，并选择最优动作。6) 合成数据生成管道：用于训练VLM验证器，生成包含各种场景和动作的合成数据。

关键创新：论文的关键创新在于：1) 提出了RoboMonkey框架，通过测试时采样和验证来提升VLA模型的鲁棒性。2) 提出了基于VLM的动作验证器，利用VLM的视觉理解能力来评估动作的合理性。3) 提出了合成数据生成管道，用于训练VLM验证器，解决了真实数据标注成本高的问题。4) 发现了动作误差与采样数量之间的指数幂定律，为测试时扩展提供了理论依据。

关键设计：VLM验证器的训练是关键。论文使用合成数据进行训练，数据包含场景图像、任务描述和动作。VLM验证器的输入是场景图像、任务描述和候选动作，输出是该动作的合理性评分。损失函数可以使用二元交叉熵损失，目标是区分合理动作和不合理动作。高斯扰动的标准差是一个重要的超参数，需要根据具体任务进行调整。多数投票的窗口大小也会影响最终的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RoboMonkey框架能够显著提升VLA模型的性能。在分布外任务上，RoboMonkey实现了25%的绝对改进，在分布内任务上实现了9%的改进。此外，在适应新的机器人设置时，微调VLA和动作验证器比单独微调VLA产生7%的性能提升。这些结果表明，RoboMonkey框架具有很强的实用价值和推广潜力。

🎯 应用场景

RoboMonkey框架可广泛应用于各种需要视觉运动控制的机器人任务中，例如家庭服务机器人、工业自动化机器人、自动驾驶等。该框架能够提升机器人在复杂、非结构化环境中的鲁棒性和泛化能力，使其能够更好地完成各种任务。未来，该研究可以进一步扩展到多模态融合、强化学习等领域，为机器人智能提供更强大的支持。

📄 摘要（原文）

Vision-Language-Action (VLA) models have demonstrated remarkable capabilities in visuomotor control, yet ensuring their robustness in unstructured real-world environments remains a persistent challenge. In this paper, we investigate test-time scaling through the lens of sampling and verification as means to enhance the robustness and generalization of VLAs. We first demonstrate that the relationship between action error and the number of generated samples follows an exponentiated power law across a range of VLAs, indicating the existence of inference-time scaling laws. Building on these insights, we introduce RoboMonkey, a test-time scaling framework for VLAs. At deployment, RoboMonkey samples a small set of actions from a VLA, applies Gaussian perturbation and majority voting to construct an action proposal distribution, and then uses a Vision Language Model (VLM)-based verifier to select the optimal action. We propose a synthetic data generation pipeline for training such VLM-based action verifiers, and demonstrate that scaling the synthetic dataset consistently improves verification and downstream accuracy. Through extensive simulated and hardware experiments, we show that pairing existing VLAs with RoboMonkey yields significant performance gains, achieving a 25% absolute improvement on out-of-distribution tasks and 9% on in-distribution tasks. Additionally, when adapting to new robot setups, we show that fine-tuning both VLAs and action verifiers yields a 7% performance increase compared to fine-tuning VLAs alone.

RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理