SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models
作者: Hyeonbeom Choi, Daechul Ahn, Youhan Lee, Taewook Kang, Seongwon Cho, Jonghyun Choi
分类: cs.RO, cs.AI, cs.LG
发布日期: 2026-02-04
备注: 20 pages, 8 figures
💡 一句话要点
提出SCALE,通过自不确定性调节视觉感知和动作执行,提升VLA模型鲁棒性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 机器人控制 测试时缩放 自不确定性 主动推理 自适应控制 单次前向推理
📋 核心要点
- 现有VLA模型的测试时缩放方法计算成本高,且仅关注动作解码,忽略了感知模糊时的视觉表征调整。
- SCALE利用自不确定性,无需额外训练,单次前向推理即可联合调节视觉感知和动作执行,实现自适应控制。
- 实验证明SCALE能有效提升VLA模型在模拟和真实环境中的性能,优于现有TTS方法,并保持高效性。
📝 摘要(中文)
视觉-语言-动作(VLA)模型已成为通用机器人控制领域中一种有前景的范例,其中测试时缩放(TTS)因其增强训练之外的鲁棒性而备受关注。然而,现有的VLA的TTS方法需要额外的训练、验证器和多次前向传递,这使得它们在部署中不切实际。此外,它们仅在动作解码时进行干预,而保持视觉表征不变——这在感知模糊的情况下是不够的,在这种情况下,重新考虑如何感知与决定做什么同等重要。为了解决这些限制,我们提出SCALE,一种简单的推理策略,它基于“自不确定性”联合调节视觉感知和动作,灵感来自主动推理理论中的不确定性驱动探索——不需要额外的训练,不需要验证器,并且只需要一次前向传递。SCALE在高不确定性下扩大了感知和动作方面的探索,而在有信心时则专注于利用——从而能够在不同的条件下进行自适应执行。在模拟和真实世界基准上的实验表明,SCALE改进了最先进的VLA,并且优于现有的TTS方法,同时保持了单次传递效率。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型的测试时缩放(TTS)方法存在以下痛点:一是需要额外的训练或验证器,增加了计算成本;二是通常需要多次前向传递,影响了实时性;三是主要关注动作解码阶段的调整,忽略了在感知模糊情况下对视觉表征的重新评估。因此,如何在不增加额外负担的情况下,提升VLA模型在复杂环境中的鲁棒性和适应性是一个关键问题。
核心思路:SCALE的核心思路是利用模型自身的“自不确定性”来指导视觉感知和动作执行的自适应调整。受到主动推理理论中不确定性驱动探索的启发,SCALE认为在高不确定性情况下,模型应该更积极地探索不同的感知和动作策略,而在确定性较高的情况下,则应该专注于利用已有的知识。通过这种方式,SCALE能够根据环境的变化动态地调整模型的行为,从而提高其鲁棒性和泛化能力。
技术框架:SCALE的整体框架可以概括为以下几个步骤:1) 输入视觉和语言信息到VLA模型;2) VLA模型生成视觉表征和动作预测;3) 计算VLA模型输出的自不确定性;4) 基于自不确定性,自适应地调节视觉感知和动作执行;5) 执行调节后的动作。整个过程只需要一次前向传递,无需额外的训练或验证器。
关键创新:SCALE最重要的技术创新点在于它将自不确定性引入到VLA模型的推理过程中,并利用自不确定性来联合调节视觉感知和动作执行。与现有方法相比,SCALE无需额外的训练或验证器,并且只需要一次前向传递,从而实现了高效的自适应控制。此外,SCALE还能够根据环境的变化动态地调整模型的行为,从而提高了其鲁棒性和泛化能力。
关键设计:SCALE的关键设计包括:1) 自不确定性的计算方法:论文中具体如何计算自不确定性未知;2) 自适应调节策略:基于自不确定性,如何调节视觉感知和动作执行的具体策略未知;3) VLA模型的选择:SCALE可以应用于不同的VLA模型,但具体选择哪种模型以及如何进行适配未知。
📊 实验亮点
实验结果表明,SCALE能够显著提升现有VLA模型的性能,并在模拟和真实世界的基准测试中优于现有的TTS方法。SCALE在保持单次前向推理效率的同时,实现了更高的任务完成率和更强的鲁棒性。具体的性能提升数据未知,但论文强调了SCALE在不同环境下的自适应能力。
🎯 应用场景
SCALE具有广泛的应用前景,例如在家庭服务机器人、自动驾驶、工业自动化等领域。它可以帮助机器人在复杂和不确定的环境中更好地理解指令、感知环境并执行任务,提高机器人的智能化水平和适应能力。SCALE的单次前向推理特性使其特别适用于对实时性要求较高的应用场景。
📄 摘要(原文)
Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic control, with test-time scaling (TTS) gaining attention to enhance robustness beyond training. However, existing TTS methods for VLAs require additional training, verifiers, and multiple forward passes, making them impractical for deployment. Moreover, they intervene only at action decoding while keeping visual representations fixed-insufficient under perceptual ambiguity, where reconsidering how to perceive is as important as deciding what to do. To address these limitations, we propose SCALE, a simple inference strategy that jointly modulates visual perception and action based on 'self-uncertainty', inspired by uncertainty-driven exploration in Active Inference theory-requiring no additional training, no verifier, and only a single forward pass. SCALE broadens exploration in both perception and action under high uncertainty, while focusing on exploitation when confident-enabling adaptive execution across varying conditions. Experiments on simulated and real-world benchmarks demonstrate that SCALE improves state-of-the-art VLAs and outperforms existing TTS methods while maintaining single-pass efficiency.