SITCOM: Scaling Inference-Time COMpute for VLAs

作者: Ayudh Saxena, Harsh Shah, Sandeep Routray, Rishi Rajesh Shah, Esha Pahwa

分类: cs.RO

发布日期: 2025-10-05

备注: Accepted at the NeurIPS 2025 Workshop on Space in Vision, Language, and Embodied AI (SpaVLE). *Equal contribution

💡 一句话要点

SITCOM：通过扩展推理时计算能力提升VLA模型在机器人控制中的性能

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人控制 模型预测控制 动力学模型 长时程规划

📋 核心要点

现有VLA模型在机器人控制中面临长时程规划和误差累积的挑战，限制了其在动态环境中的应用。
SITCOM框架通过引入基于模型的rollout和奖励驱动的轨迹选择，增强了VLA模型的前瞻能力和鲁棒性。
实验表明，SITCOM结合学习到的动力学模型，显著提升了机器人在SIMPLER环境中的任务完成率。

📝 摘要（中文）

由于标注数据的高成本、对未见环境的泛化能力有限以及长时程规划的困难，学习鲁棒的机器人控制策略仍然是一个主要的挑战。视觉-语言-动作（VLA）模型通过将自然语言指令转化为单步控制命令，提供了一个有希望的解决方案，但它们通常缺乏前瞻机制，并且难以应对动态任务中的误差累积。我们提出了SITCOM，一个通过基于模型的rollout和基于奖励的轨迹选择来增强预训练VLA模型的框架，其灵感来源于模型预测控制算法。SITCOM利用学习到的动力学模型来模拟多步动作rollout，从而选择最佳的候选计划用于真实世界的执行，将一次性VLA转化为鲁棒的长时程规划器。我们开发了一个高效的基于Transformer的动力学模型，该模型在大型BridgeV2数据上进行训练，并在SIMPLER环境中进行微调，以弥合Real2Sim的差距，并使用来自模拟器的奖励对候选rollout进行评分。通过在SIMPLER环境中的多个任务和设置中进行的全面评估，我们证明了SITCOM与良好的奖励函数相结合，可以使用训练的动力学模型将任务完成率从48%显著提高到72%。

🔬 方法详解

问题定义：论文旨在解决视觉-语言-动作（VLA）模型在机器人控制任务中，由于缺乏长时程规划能力和容易累积误差，导致性能受限的问题。现有的VLA模型通常只能根据当前状态和指令输出单步动作，无法进行前瞻性规划，并且在动态环境中容易受到干扰，导致误差累积，最终任务失败。

核心思路：论文的核心思路是借鉴模型预测控制（MPC）的思想，利用学习到的动力学模型来预测未来多个步骤的状态，并根据奖励函数选择最优的动作序列。通过这种方式，VLA模型可以进行前瞻性规划，并在一定程度上缓解误差累积的问题。SITCOM框架将VLA模型作为基础控制器，利用动力学模型进行rollout，并使用奖励函数评估rollout的结果，选择最佳的动作序列执行。

技术框架：SITCOM框架主要包含以下几个模块：1) 预训练的VLA模型：用于将视觉和语言信息转化为单步动作指令。2) 动力学模型：用于预测在给定状态和动作下的未来状态。该模型基于Transformer架构，并在BridgeV2数据集上进行预训练，然后在SIMPLER环境中进行微调。3) Rollout模块：利用动力学模型，对多个候选动作序列进行rollout，预测未来状态。4) 奖励函数：用于评估rollout的结果，奖励函数来自模拟器。5) 轨迹选择模块：根据奖励函数的结果，选择最优的动作序列执行。

关键创新：论文的关键创新在于将模型预测控制的思想引入到VLA模型中，通过学习到的动力学模型进行rollout和奖励驱动的轨迹选择，从而增强了VLA模型的前瞻能力和鲁棒性。与传统的VLA模型相比，SITCOM框架可以进行长时程规划，并在一定程度上缓解误差累积的问题。此外，论文还提出了一种高效的基于Transformer的动力学模型，并在BridgeV2数据集上进行预训练，然后在SIMPLER环境中进行微调，以弥合Real2Sim的差距。

关键设计：动力学模型采用Transformer架构，输入为当前状态和动作，输出为下一个状态的预测。模型在BridgeV2数据集上进行预训练，然后在SIMPLER环境中进行微调，以适应特定的任务环境。Rollout的长度和候选动作序列的数量是重要的参数，需要根据具体的任务进行调整。奖励函数的设计也至关重要，需要能够准确地反映任务的完成程度。

📊 实验亮点

实验结果表明，SITCOM框架可以显著提高机器人在SIMPLER环境中的任务完成率。在多个任务和设置中，SITCOM与良好的奖励函数相结合，可以使用训练的动力学模型将任务完成率从48%显著提高到72%。这表明SITCOM框架能够有效地增强VLA模型的前瞻能力和鲁棒性。

🎯 应用场景

SITCOM框架具有广泛的应用前景，可以应用于各种机器人控制任务中，例如家庭服务机器人、工业机器人、自动驾驶等。该框架可以提高机器人在复杂环境中的适应性和鲁棒性，使其能够更好地完成各种任务。未来，可以将SITCOM框架与其他技术相结合，例如强化学习、模仿学习等，进一步提高机器人的智能水平。

📄 摘要（原文）

Learning robust robotic control policies remains a major challenge due to the high cost of collecting labeled data, limited generalization to unseen environments, and difficulties in planning over long horizons. While Vision-Language-Action (VLA) models offer a promising solution by grounding natural language instructions into single-step control commands, they often lack mechanisms for lookahead and struggle with compounding errors in dynamic tasks. In this project, we introduce Scaling Inference-Time COMpute for VLAs (SITCOM), a framework that augments any pretrained VLA with model-based rollouts and reward-based trajectory selection, inspired by Model Predictive Control algorithm. SITCOM leverages a learned dynamics model to simulate multi-step action rollouts to select the best candidate plan for real-world execution, transforming one-shot VLAs into robust long-horizon planners. We develop an efficient transformer-based dynamics model trained on large-scale BridgeV2 data and fine-tuned on SIMPLER environments to bridge the Real2Sim gap, and score candidate rollouts using rewards from simulator. Through comprehensive evaluation across multiple tasks and settings in the SIMPLER environment, we demonstrate that SITCOM when combined with a good reward function can significantly improve task completion rate from 48% to 72% using trained dynamics model.

SITCOM: Scaling Inference-Time COMpute for VLAs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册