VLAConf: Calibrated Task-Success Confidence for Vision-Language-Action Models

📄 arXiv: 2605.29605v1 📥 PDF

作者: Dehao Huang, Aoxiang Gu, Chengjie Zhang, Bolin Zou, Wenlong Dong, Zilang Cen, Yue Wang, Hong Zhang

分类: cs.RO

发布日期: 2026-05-28

备注: 11 pages, 7 figures


💡 一句话要点

提出VLAConf,用于校准视觉-语言-动作模型的任务成功置信度,提升机器人操作的可靠性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 置信度估计 机器人操作 异常检测 单类判别

📋 核心要点

  1. 现有VLA模型置信度估计方法计算效率低,且难以泛化到不同架构和连续动作空间。
  2. VLAConf利用预训练VLA模型的内部表示,通过单次前向传播估计每一步的异常分数,实现高效置信度估计。
  3. 在LIBERO基准测试和真实机器人实验中,VLAConf显著提升了置信度信号质量和推理效率。

📝 摘要(中文)

视觉-语言-动作(VLA)模型的置信度估计对于机器人在开放世界中执行操作任务至关重要,它为风险敏感的决策和失败预测提供了关键信号。现有的置信度估计方法通常依赖于基于集成的方法或动作token概率来预测任务成功的可能性。然而,它们在计算效率和跨架构泛化性方面仍然面临挑战。这些方法通常需要重复采样,导致推理效率低下,并且仅限于具有离散动作输出的VLA模型,难以应用于连续动作空间。为了解决这个问题,我们提出了VLAConf,一种单类判别置信度框架。通过利用冻结的预训练VLA内部表示,VLAConf使用轻量级置信度头在单次前向传递中直接估计逐步异常分数,从而消除了详尽重采样的开销。我们还使用步骤条件建模来编码沿操作轨迹的rollout阶段信息。在LIBERO基准上的实验表明,VLAConf显著提高了为事后校准构建的置信度信号的质量,在推理效率方面大大优于现有基线。VLAConf的有效性在真实机器人实验中得到了进一步验证。源代码和补充视频请访问https://sites.google.com/view/vlaconf。

🔬 方法详解

问题定义:现有VLA模型在开放世界操作任务中,置信度估计依赖重复采样或离散动作概率,导致计算效率低,且难以应用于连续动作空间和不同模型架构。痛点在于缺乏一种高效、通用的置信度评估方法,阻碍了机器人进行风险敏感决策和失败预测的能力。

核心思路:VLAConf的核心思路是利用预训练VLA模型的内部表征,将其视为一种先验知识,然后通过一个轻量级的置信度头来学习正常操作轨迹的分布。通过检测当前轨迹与正常轨迹的偏差程度,来估计任务成功的置信度。这样避免了重复采样,提高了效率,并且可以应用于不同的VLA模型架构。

技术框架:VLAConf包含以下主要模块:1) 冻结的预训练VLA模型:用于提取视觉、语言和动作的联合表征。2) 步骤条件建模:将rollout阶段的信息编码到表征中,增强时序信息。3) 轻量级置信度头:一个单层或多层感知机,用于将VLA表征映射到异常分数,即置信度。整体流程是,输入视觉、语言和动作序列,通过VLA模型提取表征,然后通过置信度头输出每一步的置信度分数。

关键创新:VLAConf的关键创新在于使用单类判别方法,直接学习正常操作轨迹的分布,并检测异常。与现有方法相比,它不需要重复采样,因此计算效率更高。此外,它利用预训练模型的内部表征,可以更好地泛化到不同的VLA模型架构。

关键设计:VLAConf的关键设计包括:1) 使用冻结的预训练VLA模型,避免了对VLA模型的微调,降低了计算成本。2) 使用步骤条件建模,将rollout阶段的信息编码到表征中,增强了时序信息。3) 使用轻量级置信度头,降低了计算复杂度。4) 使用合适的损失函数,例如基于距离的损失函数,来学习正常操作轨迹的分布。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VLAConf在LIBERO基准测试中显著优于现有基线,在推理效率方面有大幅提升。真实机器人实验也验证了VLAConf的有效性。具体性能数据和提升幅度在论文中有详细展示,表明VLAConf是一种高效且实用的置信度估计方法。

🎯 应用场景

VLAConf可应用于各种机器人操作任务,例如家庭服务机器人、工业机器人和医疗机器人。通过提供可靠的置信度估计,VLAConf可以帮助机器人进行风险敏感的决策,例如在检测到操作失败风险时及时停止或调整动作。这可以提高机器人的安全性和可靠性,并扩展其应用范围。

📄 摘要(原文)

Confidence estimation for Vision-Language-Action (VLA) models is essential for robots to perform manipulation tasks in the open world, providing crucial signals for risk-sensitive decision-making and failure anticipation. Existing confidence estimation methods typically rely on ensemble-based paradigms or action-token probabilities to predict the likelihood of task success. However, they still encounter challenges in computational efficiency and cross-architecture generalizability. These methods usually require repeated sampling, leading to inference inefficiency, and are restricted to VLA models with discrete action outputs, making them difficult to apply to continuous action spaces. To address this issue, we propose VLAConf, a one-class discriminative confidence framework. By leveraging frozen pretrained VLA internal representations, VLAConf directly estimates step-wise anomaly scores in a single forward pass using a lightweight confidence head, thereby eliminating the overhead of exhaustive resampling. We additionally use step-conditioned modeling to encode rollout-phase information along the manipulation trajectory. Experiments on the LIBERO benchmark demonstrate that VLAConf significantly improves the quality of the confidence signal constructed for post-hoc calibration, outperforming existing baselines by a large margin in inference efficiency. The effectiveness of VLAConf is further validated in real-robot experiments. To access the source code and supplementary videos, visit https://sites.google.com/view/vlaconf.