LaST$_{0}$: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model

作者: Zhuoyang Liu, Jiaming Liu, Hao Chen, Ziyu Guo, Chengkai Hou, Chenyang Gu, Jiale Yu, Xiangju Mi, Renrui Zhang, Zhengping Che, Jian Tang, Pheng-Ann Heng, Shanghang Zhang

分类: cs.RO

发布日期: 2026-01-08

💡 一句话要点

LaST$_{0}$: 基于隐空间时空链式思考的机器人视觉-语言-动作模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉-语言-动作模型 隐空间推理 时空链式思考 Transformer 双系统架构 异构操作频率

📋 核心要点

现有VLA模型在机器人操作中存在推理延迟高、难以捕捉物理属性等问题，限制了其应用。
LaST$_{0}$通过隐空间时空链式思考，建模视觉动态、3D结构和机器人状态，实现高效推理。
LaST$_{0}$采用双系统架构和异构操作频率训练，在模拟和真实世界任务中均显著提升成功率。

📝 摘要（中文）

视觉-语言-动作(VLA)模型最近在机器人操作中表现出强大的泛化能力。一些现有的VLA方法试图通过在执行动作之前显式生成语言推理轨迹或未来视觉观察来提高动作准确性。然而，显式推理通常会产生不可忽略的推理延迟，这限制了机器人操作所需的时间分辨率。此外，这种推理仅限于语言空间，造成了表征瓶颈，难以忠实地捕捉难以言表的物理属性。为了缓解这些限制，我们提出了LaST${0}$，一个通过隐空间时空链式思考(CoT)实现高效推理的框架，捕捉通常难以用语言表达的细粒度物理和机器人动力学。具体来说，我们引入了一个token高效的隐空间CoT，用于建模未来的视觉动态、3D结构信息和机器人本体感受状态，并进一步在时间上扩展这些表示，以实现时间上一致的隐式推理轨迹。此外，LaST${0}$采用通过混合Transformer设计实现的双系统架构，其中推理专家进行低频隐空间推理，而动作专家根据面向机器人的隐空间表示生成高频动作。为了促进协调，LaST${0}$采用异构操作频率进行训练，从而能够在部署期间自适应地切换推理和动作推理速率。在十个模拟和六个真实世界的操作任务中，LaST${0}$分别比之前的VLA方法提高了8%和13%的平均成功率，同时实现了显著更快的推理速度。

🔬 方法详解

问题定义：现有的视觉-语言-动作(VLA)模型在机器人操作任务中，通常依赖于显式的语言推理或未来视觉预测来提高动作的准确性。然而，这些显式推理方法会引入显著的推理延迟，限制了机器人操作的实时性。此外，语言空间的表达能力有限，难以捕捉细微的物理属性和机器人动力学，导致模型性能受限。

核心思路：LaST$_{0}$的核心思想是利用隐空间时空链式思考(CoT)进行高效推理。通过将视觉动态、3D结构信息和机器人状态编码到隐空间中，模型可以学习到细粒度的物理和机器人动力学表示，避免了语言表达的瓶颈。同时，在隐空间中进行时序推理，可以有效地预测未来的状态，从而指导动作的生成。

技术框架：LaST$_{0}$采用双系统架构，包含一个推理专家和一个动作专家。推理专家以低频率在隐空间中进行推理，生成包含未来状态信息的隐空间表示。动作专家以高频率基于推理专家提供的隐空间表示生成具体的动作指令。整个框架通过混合Transformer实现，可以灵活地调整推理和动作的频率，以适应不同的任务需求。

关键创新：LaST$_{0}$的关键创新在于引入了隐空间时空链式思考(CoT)的概念，将视觉、几何和机器人状态信息融合到隐空间中进行推理。这种隐式推理方式避免了显式语言推理的延迟和表达瓶颈，能够更有效地捕捉细粒度的物理属性和机器人动力学。此外，双系统架构和异构操作频率训练也使得模型能够自适应地调整推理和动作的频率，提高了模型的效率和鲁棒性。

关键设计：LaST$_{0}$使用Transformer网络作为推理专家和动作专家的基础架构。推理专家接收视觉输入、3D结构信息和机器人状态，通过自注意力机制学习到隐空间表示。动作专家接收推理专家的输出和当前机器人状态，生成动作指令。模型采用异构操作频率进行训练，推理专家以较低的频率更新隐空间表示，而动作专家以较高的频率生成动作。损失函数包括动作预测损失和隐空间表示的重构损失，用于优化模型的性能。

📊 实验亮点

LaST${0}$在模拟和真实世界的机器人操作任务中均取得了显著的性能提升。在十个模拟任务中，LaST${0}$的平均成功率比之前的VLA方法提高了8%。在六个真实世界任务中，LaST$_{0}$的平均成功率提高了13%，同时实现了更快的推理速度，验证了该方法的有效性和实用性。

🎯 应用场景

LaST$_{0}$在机器人操作领域具有广泛的应用前景，例如自动化装配、物流分拣、家庭服务机器人等。该方法能够提高机器人在复杂环境中的操作效率和鲁棒性，降低对人工干预的依赖，从而推动机器人技术的进一步发展和应用。

📄 摘要（原文）

Vision-Language-Action (VLA) models have recently demonstrated strong generalization capabilities in robotic manipulation. Some existing VLA approaches attempt to improve action accuracy by explicitly generating linguistic reasoning traces or future visual observations before action execution. However, explicit reasoning typically incurs non-negligible inference latency, which constrains the temporal resolution required for robotic manipulation. Moreover, such reasoning is confined to the linguistic space, imposing a representational bottleneck that struggles to faithfully capture ineffable physical attributes. To mitigate these limitations, we propose LaST$_0$, a framework that enables efficient reasoning before acting through a Latent Spatio-Temporal Chain-of-Thought (CoT), capturing fine-grained physical and robotic dynamics that are often difficult to verbalize. Specifically, we introduce a token-efficient latent CoT space that models future visual dynamics, 3D structural information, and robot proprioceptive states, and further extends these representations across time to enable temporally consistent implicit reasoning trajectories. Furthermore, LaST$_0$ adopts a dual-system architecture implemented via a Mixture-of-Transformers design, where a reasoning expert conducts low-frequency latent inference and an acting expert generates high-frequency actions conditioned on robotics-oriented latent representations. To facilitate coordination, LaST$_0$ is trained with heterogeneous operation frequencies, enabling adaptive switching between reasoning and action inference rates during deployment. Across ten simulated and six real-world manipulation tasks, LaST$_0$ improves mean success rates by 8% and 13% over prior VLA methods, respectively, while achieving substantially faster inference. Project website: https://sites.google.com/view/last0

LaST$_{0}$: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册