TapSampling: Inference-Time Sampling with a Task-Progress-Understanding Verifier for Robotic Manipulation

📄 arXiv: 2605.25547v1 📥 PDF

作者: Sizhe Zhao, Shengping Zhang, Shuo Yang, Weiyu Zhao, Shuigen Wang, Xiangyang Ji

分类: cs.RO, cs.CV

发布日期: 2026-05-25

备注: ICML 2026. Project Page: https://aipixel.github.io/TapSampling/


💡 一句话要点

TapSampling:结合任务理解的推理时采样,提升机器人操作性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人操作 推理时采样 动作验证 任务进度预测 具身智能

📋 核心要点

  1. 现有具身控制方法依赖大规模训练数据和模型,但推理效率受限。
  2. TapSampling通过Action-VAE生成候选动作,并使用任务进度预测器进行验证和选择。
  3. 实验表明,TapSampling无需微调即可显著提升现有通用策略在机器人操作任务中的性能。

📝 摘要(中文)

现有具身控制研究通过扩展训练数据和模型规模来显著提升性能。本文探索了一种替代策略:推理时策略。扩散模型和自回归模型等非确定性生成模型已被广泛应用于具身控制领域。然而,单次推理范式限制了它们的性能。本文提出TapSampling,一个用于推理时采样的即插即用框架。首先,我们引入了一个Action-VAE,它通过将策略生成的初始动作映射到压缩的后验分布中,从而在低维潜在空间中表示动作,从中可以抽取任意数量的潜在样本,并解码为近似真实动作分布的候选动作。其次,我们将动作验证定义为任务进度结果预测,利用机器人数据集的内在顺序结构来训练一个语义接地的验证器,用于可解释的动作选择。此外,TapSampling是一个策略无关的框架。在模拟和真实环境中的大量实验表明,我们的方法在没有进一步策略微调的情况下,显著提高了多个通用策略的性能。

🔬 方法详解

问题定义:现有基于生成模型的机器人控制方法通常采用单次推理范式,即给定当前状态,模型直接生成一个动作。这种方式无法充分利用生成模型的多样性,容易陷入局部最优,导致控制性能受限。因此,如何有效地利用生成模型在推理时生成多个候选动作,并从中选择最优动作,是本文要解决的问题。

核心思路:本文的核心思路是,首先利用Action-VAE将策略生成的初始动作映射到低维潜在空间,并从中采样多个候选动作。然后,通过训练一个任务进度预测器(verifier)来评估每个候选动作的优劣,并选择能够最大程度提升任务进度的动作。这种方法将动作选择问题转化为任务进度预测问题,从而能够更好地利用机器人数据集中的序列信息。

技术框架:TapSampling框架主要包含两个模块:Action-VAE和任务进度预测器。Action-VAE负责将策略生成的初始动作编码到低维潜在空间,并从中采样多个候选动作。任务进度预测器则负责预测每个候选动作执行后,任务的进展程度。整体流程如下:1) 策略生成初始动作;2) Action-VAE将初始动作编码到潜在空间并采样多个候选动作;3) 将当前状态和每个候选动作输入到任务进度预测器中,得到每个动作对应的任务进度预测值;4) 选择任务进度预测值最高的动作执行。

关键创新:本文的关键创新在于将动作验证问题转化为任务进度预测问题。传统的动作验证方法通常需要人工设计奖励函数或专家知识,而本文提出的方法可以通过学习机器人数据集中的序列信息,自动学习任务进度预测器。此外,本文提出的TapSampling框架是一个策略无关的框架,可以应用于各种不同的策略。

关键设计:Action-VAE采用标准的VAE结构,编码器和解码器均采用多层感知机。任务进度预测器采用Transformer结构,输入为当前状态和候选动作,输出为任务进度预测值。损失函数方面,Action-VAE采用标准的VAE损失函数,任务进度预测器采用均方误差损失函数。在实验中,作者使用了多个不同的机器人数据集,并对Action-VAE和任务进度预测器的参数进行了精细的调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在模拟和真实环境中的实验表明,TapSampling可以显著提升多个通用策略的性能,而无需进行额外的策略微调。例如,在抓取任务中,TapSampling可以将抓取成功率提升10%-20%。此外,实验还表明,TapSampling对不同的策略具有良好的适应性,可以应用于各种不同的机器人控制任务。

🎯 应用场景

TapSampling具有广泛的应用前景,可以应用于各种机器人操作任务,例如物体抓取、装配、导航等。该方法可以显著提升现有机器人控制策略的性能,降低对训练数据的依赖,并提高机器人的泛化能力。未来,可以将TapSampling应用于更复杂的机器人任务,例如人机协作、自主探索等。

📄 摘要(原文)

Existing embodied control research demonstrates remarkable performance improvements by scaling training data and model size. We instead explore inference-time strategy as an alternative axis. Non-deterministic generative models, such as diffusion and autoregressive models, have been widely adopted in the field of embodied control. However, the single-shot inference paradigm limits their performance. In this paper, we propose \textbf{TapSampling}, a plug-and-play framework for inference-time sampling. First, we introduce an Action-VAE that represents actions in a low-dimensional latent space by mapping policy-generated initial actions into a compressed posterior distribution, from which any number of latent samples can be drawn and decoded into candidate actions that approximate the true action distribution. Second, we formulate action verification as task-progress outcome prediction, using the intrinsic sequential structure of robotic datasets to train a semantically grounded verifier for interpretable action selection. Furthermore, TapSampling is a policy-agnostic framework. Extensive experiments in both simulated and real-world environments demonstrate that our method substantially improves multiple generalist policies without further policy finetuning. Code and models are available at the project page.