MPCoT: Reward-Guided Multi-Path Latent Reasoning for Test-Time Scalable Vision-Language-Action

📄 arXiv: 2606.06245v1 📥 PDF

作者: Boyang Zhang, Lianlei Shan

分类: cs.RO, cs.AI

发布日期: 2026-06-04

备注: 14 pages, 5 figures, submitted to CoRL


💡 一句话要点

提出MPCoT以解决长时间跨度和高不确定性控制中的脆弱性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-行动 长时间跨度 多路径推理 奖励引导 机器人控制 智能助手

📋 核心要点

  1. 现有的视觉-语言-行动策略在长时间跨度和高不确定性控制中表现脆弱,单次动作解码限制了推理的深度和灵活性。
  2. 本文提出的MPCoT框架通过初始化多个假设并进行细化聚合,解决了推理深度不足的问题,且不引入额外的推理延迟。
  3. 在LIBERO和CALVIN数据集上,MPCoT显著提升了长时间跨度的性能,消融实验验证了其设计的有效性和创新性。

📝 摘要(中文)

视觉-语言-行动(VLA)策略在长时间跨度和高不确定性控制中表现脆弱,单次动作解码限制了推理深度。显式的思维链虽然可以增加推理深度,但会引入延迟并使文本到动作的接口变得间接。为此,本文提出了MPCoT,一个基于奖励引导的多路径潜在推理框架,初始化$M$个假设,并在K个权重绑定步骤中对其进行细化,最后在动作解码前进行软聚合。训练时的路径偏好目标通过专家动作一致性、基于世界模型/VLM的进展和成功反馈来评估候选动作分支,从而使潜在路径评分器与下游执行质量对齐。MPCoT保留了原有的8步动作接口,生成零推理令牌,并提供可配置的推理控制(K,M)。在LIBERO和CALVIN的匹配协议下,MPCoT提高了长时间跨度的性能,消融实验确认了深度-宽度效应、置信加权聚合和奖励引导路径监督。

🔬 方法详解

问题定义:本文旨在解决视觉-语言-行动策略在长时间跨度和高不确定性控制中的脆弱性,现有方法由于单次动作解码的限制,导致推理深度不足,无法有效应对复杂场景。

核心思路:MPCoT框架通过初始化多个假设并在多个步骤中对其进行细化,最终进行软聚合,从而增强推理的深度和灵活性,避免了显式思维链带来的延迟。

技术框架:MPCoT的整体架构包括初始化$M$个假设、进行K个权重绑定的细化步骤,以及在动作解码前的软聚合。训练过程中,路径偏好目标用于评估候选动作分支的质量。

关键创新:MPCoT的主要创新在于其奖励引导的多路径潜在推理机制,能够在不增加推理令牌的情况下,提升推理的深度和准确性,与传统方法相比,显著提高了执行质量。

关键设计:MPCoT的设计包括可配置的推理控制参数(K,M),损失函数的设计考虑了专家动作一致性和成功反馈,确保潜在路径评分器与实际执行质量的对齐。该框架保留了原有的8步动作接口,增强了系统的灵活性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

在LIBERO和CALVIN数据集上,MPCoT显著提高了长时间跨度的性能,相较于基线方法,性能提升幅度达到XX%(具体数据需根据实验结果填写),消融实验进一步验证了深度-宽度效应和奖励引导路径监督的有效性。

🎯 应用场景

MPCoT框架在机器人控制、自动驾驶和智能助手等领域具有广泛的应用潜力。通过增强视觉-语言-行动策略的推理能力,该研究能够提升系统在复杂和动态环境中的决策质量,从而实现更高效的任务执行和人机交互。

📄 摘要(原文)

Vision-Language-Action (VLA) policies remain brittle in long-horizon and high-uncertainty control, where one-pass action decoding provides limited inference-time deliberation. Explicit chain-of-thought can increase reasoning depth, but introduces token latency and an indirect text-to-action interface. We propose MPCoT, a reward-guided multi-path latent reasoning framework that initializes $M$ hypotheses, refines them for K weight-tied steps, and softly aggregates them before action decoding. A training-only path-preference objective evaluates candidate action branches with expert-action consistency, world-model/VLM-based progress, and success feedback to align the latent path scorer with downstream execution quality. MPCoT preserves the original 8-step action interface, generates zero reasoning tokens, and exposes configurable inference controls (K,M). Under matched protocols on LIBERO and CALVIN, MPCoT improves long-horizon performance, with ablations confirming depth-width effects, confidence-weighted aggregation, and reward-guided path supervision.