Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
作者: Siyuan Yang, Yang Zhang, Haoran He, Ling Pan, Xiu Li, Chenjia Bai, Xuelong Li
分类: cs.RO, cs.AI
发布日期: 2025-12-02
备注: The first two authors contributed equally. Yang Zhang leads the whole project
💡 一句话要点
提出TACO:一种测试时缩放框架,用于提升VLA模型在下游任务中的稳定性和成功率
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 测试时缩放 反探索 伪计数估计 机器人控制
📋 核心要点
- VLA模型在下游任务中表现出推理不稳定性,源于预训练数据中的冗余动作模式和微调后的分布偏移。
- TACO通过测试时缩放,利用伪计数估计器验证动作块,选择最优动作,避免分布偏移,提升泛化能力。
- 实验表明,TACO在多个模拟环境和真实机器人平台上显著提升了VLA模型的推理稳定性和成功率。
📝 摘要(中文)
视觉-语言-动作(VLA)模型通过流匹配或扩散目标函数进行训练,擅长从大规模多模态数据集中学习复杂行为。然而,由于VLA在预训练阶段融合了多种数据模式,且微调数据集通常包含以运动学次优或不良方式收集的演示数据,因此存在与下游任务成功动作模式无关的冗余动作模式。本文观察到,在预训练VLA经过监督微调后,各种采样噪声之间存在严重的推理时脆弱性。我们将这种不稳定性归因于VLA策略与下游任务数据集稳定成功模式所诱导的策略之间的分布偏移。因此,我们提出了TACO,一种测试时缩放(TTS)框架,它应用轻量级伪计数估计器作为动作块的高保真验证器。集成TACO的VLA模型可以执行来自所有采样动作块的最大伪计数的动作,从而防止分布偏移,同时保留VLA的泛化能力,因为约束仅在推理期间应用。我们的方法类似于离线强化学习(RL)中的经典反探索原则,并且由于是无梯度的,因此与RL更新相比,它具有显着的计算优势,特别是对于基于流或扩散的VLA,由于去噪过程,难以执行RL更新。在四个模拟基准(RoboTwin2.0、Robotwin、LIBERO、SimplerEnv)和一个双臂平台上的大量实验表明,我们的方法显着提高了下游任务适应中的推理稳定性和成功率。
🔬 方法详解
问题定义:VLA模型在预训练阶段学习了多种动作模式,但在下游任务微调后,模型容易受到噪声干扰,导致推理时动作不稳定,成功率降低。这是因为微调数据集可能包含次优或不良的动作演示,使得模型难以区分有效和无效的动作模式,从而产生分布偏移。现有方法难以有效解决VLA模型在下游任务中的推理稳定性问题。
核心思路:TACO的核心思路是在测试时对VLA模型生成的动作进行验证和筛选,类似于离线强化学习中的反探索原则。通过引入一个轻量级的伪计数估计器,评估每个动作块的质量,并选择具有最高伪计数的动作执行。这种方法可以有效地防止模型陷入次优或无效的动作模式,从而提高推理的稳定性和成功率。
技术框架:TACO框架主要包含以下几个步骤:1) VLA模型生成多个候选动作块;2) 使用伪计数估计器对每个动作块进行评估,得到一个伪计数;3) 选择具有最高伪计数的动作块执行。伪计数估计器可以是一个简单的分类器或回归器,用于预测动作块的质量。整个过程在测试时进行,不需要对模型进行额外的训练。
关键创新:TACO的关键创新在于将反探索的思想引入到VLA模型的推理过程中。通过伪计数估计器对动作进行验证和筛选,可以有效地防止模型陷入次优或无效的动作模式,从而提高推理的稳定性和成功率。与传统的强化学习方法相比,TACO是一种无梯度的方法,计算效率更高,更适合于基于流或扩散的VLA模型。
关键设计:伪计数估计器的设计是TACO的关键。论文中使用了轻量级的神经网络作为伪计数估计器,并使用监督学习的方法进行训练。训练数据可以从下游任务的数据集中获取,也可以使用人工标注的数据。此外,论文还探索了不同的伪计数估计器结构和训练方法,以提高其准确性和鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TACO在四个模拟基准测试(RoboTwin2.0, Robotwin, LIBERO, SimplerEnv)和一个双臂机器人平台上显著提高了VLA模型的推理稳定性和成功率。例如,在RoboTwin2.0环境中,TACO将成功率提高了15%以上。与基线方法相比,TACO在所有测试环境中都取得了更好的性能,证明了其有效性和泛化能力。
🎯 应用场景
TACO框架可应用于各种需要视觉、语言和动作交互的机器人任务,例如家庭服务机器人、工业自动化机器人、自动驾驶等。通过提高VLA模型的稳定性和成功率,TACO可以使这些机器人更加可靠和高效地完成任务,从而提高生产效率和服务质量。此外,该方法还可以应用于虚拟现实和增强现实等领域,提高人机交互的自然性和流畅性。
📄 摘要(原文)
Vision-Language-Action (VLA) models, trained via flow-matching or diffusion objectives, excel at learning complex behaviors from large-scale, multi-modal datasets (e.g., human teleoperation, scripted policies). However, since VLAs incorporate diverse data modes in the pre-training stage, and the finetuning dataset often contains demonstration data collected in a kinematically suboptimal or undesirable way, it exists redundant action modes that are irrelevant to the success action modes of the downstream task. Specifically, we observe a critical inference-time fragility among various sampled noises after supervised finetuning of pre-trained VLAs. In this paper, we attribute this instability to the distribution shift between the VLA policy and the policy induced by stable success modes of the downstream task dataset. Thus, we propose \textbf{TACO}, a test-time-scaling (TTS) framework that applies a lightweight pseudo-count estimator as a high-fidelity verifier of action chunks. The VLA models integrated with TACO can execute the actions with maximum pseudo-count from all sampled action chunks, thereby preventing distribution shifts while preserving the generalization ability of VLAs since the constraint is applied only during inference. Our method resembles the classical anti-exploration principle in offline reinforcement learning (RL), and being gradient-free, it incurs significant computational benefits compared to RL update, especially for flow or diffusion-based VLAs which are difficult to perform RL update due to denoising process. Extensive experiments across four simulation benchmarks (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) and a dual-arm platform demonstrate that our method significantly improves the inference stability and success rates in downstream-task adaptations.