LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models

📄 arXiv: 2604.28192v1 📥 PDF

作者: Hao Chen, Jiaming Liu, Zhonghao Yan, Nuowei Han, Renrui Zhang, Chenyang Gu, Jialin Gao, Ziyu Guo, Siyuan Qian, Yinxi Wang, Peng Jia, Chi-Wing Fu, Shanghang Zhang, Pheng-Ann Heng

分类: cs.RO, cs.CV

发布日期: 2026-04-30


💡 一句话要点

LaST-R1:通过自适应物理潜在推理强化VLA模型的动作执行

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 强化学习 潜在推理 思维链 机器人操作

📋 核心要点

  1. 现有VLA模型在机器人操作中面临挑战,主要局限于静态模仿学习,缺乏适应性和泛化能力,且忽略了物理推理过程。
  2. LaST-R1通过集成潜在思维链推理和定制的强化学习后训练,联合优化潜在推理和动作生成,从而桥接推理和控制。
  3. 实验表明,LaST-R1在LIBERO基准测试中取得了99.8%的平均成功率,并在真实环境中实现了高达44%的性能提升。

📝 摘要(中文)

视觉-语言-动作(VLA)模型越来越多地结合推理机制来处理复杂的机器人操作任务。然而,现有方法存在一个关键限制:无论是采用延迟高且离散化的显式语言推理,还是利用更具表现力的连续潜在推理,它们主要局限于静态模仿学习,限制了适应性和泛化能力。虽然在线强化学习(RL)已被引入VLA以实现试错探索,但当前方法仅优化原始动作空间,绕过了底层的物理推理过程。本文提出了LaST-R1,一个统一的VLA框架,它在动作执行之前集成了基于物理动力学先验的潜在思维链(CoT)推理,以及定制的RL后训练范式。具体来说,我们提出了一种新的RL算法——潜在到动作策略优化(LAPO),它联合优化潜在推理过程和动作生成。通过桥接推理和控制,LAPO改进了物理世界建模的表示,并增强了交互环境中的鲁棒性。此外,引入了一种自适应潜在CoT机制,使策略能够根据环境复杂性动态调整其推理范围。大量实验表明,LaST-R1在LIBERO基准测试中仅通过一次监督预热就实现了接近完美的99.8%的平均成功率,显著提高了收敛速度和性能,优于先前的最先进方法。在真实部署中,LAPO后训练在四个复杂任务(包括单臂和双臂设置)中,比初始预热策略提高了高达44%。最后,LaST-R1展示了在模拟和真实环境中的强大泛化能力。

🔬 方法详解

问题定义:现有VLA模型在复杂机器人操作任务中,要么依赖于延迟高且离散化的显式语言推理,要么局限于静态模仿学习,缺乏对物理世界动态变化的适应性和泛化能力。即使引入强化学习,也仅优化原始动作空间,忽略了底层的物理推理过程,导致性能受限。

核心思路:LaST-R1的核心思路是在动作执行前,利用潜在思维链(CoT)进行物理动力学推理,并结合强化学习进行后训练,从而显式地将推理过程纳入优化循环中。通过联合优化潜在推理和动作生成,模型能够更好地理解和预测物理世界的行为,从而做出更明智的决策。

技术框架:LaST-R1框架包含以下几个主要模块:1) 视觉-语言输入编码器:将视觉和语言信息编码成统一的特征表示。2) 潜在CoT推理模块:利用物理动力学先验知识,在潜在空间中进行多步推理,生成一系列中间状态表示。3) 动作生成模块:根据潜在推理结果,生成具体的机器人动作。4) 潜在到动作策略优化(LAPO):一种新的强化学习算法,用于联合优化潜在推理模块和动作生成模块。5) 自适应潜在CoT机制:根据环境复杂性动态调整推理步数。

关键创新:LaST-R1的关键创新在于提出了潜在到动作策略优化(LAPO)算法,它打破了传统强化学习仅优化动作空间的局限,将潜在推理过程纳入优化循环中。此外,自适应潜在CoT机制能够根据环境复杂性动态调整推理步数,进一步提高了模型的适应性和鲁棒性。

关键设计:LAPO算法使用Actor-Critic架构,Actor网络负责生成潜在推理序列和动作,Critic网络负责评估当前状态和动作的价值。损失函数包括强化学习损失(例如PPO损失)和潜在推理损失(例如重构损失)。自适应潜在CoT机制通过一个门控机制来控制推理步数,门控信号由环境状态的复杂性决定。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LaST-R1在LIBERO基准测试中取得了显著成果,仅通过一次监督预热就达到了99.8%的平均成功率,超越了现有最先进方法。在真实世界部署中,LAPO后训练在四个复杂任务上比初始预热策略提高了高达44%的性能,验证了其在真实环境中的有效性和泛化能力。

🎯 应用场景

LaST-R1具有广泛的应用前景,可应用于各种需要复杂操作和推理的机器人任务,例如:智能制造、自动化装配、医疗机器人、家庭服务机器人等。该研究有助于提升机器人在复杂环境中的自主性和适应性,实现更智能、更高效的机器人应用。

📄 摘要(原文)

Vision-Language-Action (VLA) models have increasingly incorporated reasoning mechanisms for complex robotic manipulation. However, existing approaches share a critical limitation: whether employing explicit linguistic reasoning that suffers from latency and discretization, or utilizing more expressive continuous latent reasoning, they are predominantly confined to static imitation learning that limits adaptability and generalization. While online reinforcement learning (RL) has been introduced to VLAs to enable trial-and-error exploration, current methods exclusively optimize the vanilla action space, bypassing the underlying physical reasoning process. In this paper, we present \textbf{LaST-R1}, a unified VLA framework that integrates latent Chain-of-Thought (CoT) reasoning over physical dynamics prior to action execution, along with a tailored RL post-training paradigm. Specifically, we propose \textbf{Latent-to-Action Policy Optimization (LAPO)}, a novel RL algorithm that jointly optimizes the latent reasoning process and the action generation. By bridging reasoning and control, LAPO improves the representation of physical world modeling and enhances robustness in interactive environments. Furthermore, an \textbf{adaptive latent CoT mechanism} is introduced to allow the policy to dynamically adjust its reasoning horizon based on environment complexity. Extensive experiments show that LaST-R1 achieves a near-perfect 99.8\% average success rate on the LIBERO benchmark with only one-shot supervised warm-up, significantly improving convergence speed and performance over prior state-of-the-art methods. In real-world deployments, LAPO post-training yields up to a 44\% improvement over the initial warm-up policy across four complex tasks, including both single-arm and dual-arm settings. Finally, LaST-R1 demonstrates strong generalization across simulated and real-world environments.