LaST$_{0}$: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model

📄 arXiv: 2601.05248v1 📥 PDF

作者: Zhuoyang Liu, Jiaming Liu, Hao Chen, Ziyu Guo, Chengkai Hou, Chenyang Gu, Jiale Yu, Xiangju Mi, Renrui Zhang, Zhengping Che, Jian Tang, Pheng-Ann Heng, Shanghang Zhang

分类: cs.RO

发布日期: 2026-01-08


💡 一句话要点

LaST$_{0}$: 提出隐空间时空链式思考,提升机器人视觉-语言-动作模型的效率与精度

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉-语言-动作模型 隐空间推理 时空链式思考 双系统架构 混合Transformer 异构操作频率

📋 核心要点

  1. 现有VLA模型依赖显式语言推理,导致推理延迟高,且语言空间难以完整表达物理属性。
  2. LaST$_{0}$提出隐空间时空链式思考,建模视觉动态、3D结构和机器人状态,实现高效隐式推理。
  3. LaST$_{0}$采用双系统架构,推理专家低频推理,动作专家高频执行,实验证明其有效性。

📝 摘要(中文)

视觉-语言-动作(VLA)模型最近在机器人操作中展示了强大的泛化能力。一些现有的VLA方法试图通过在执行动作之前显式地生成语言推理轨迹或未来的视觉观察来提高动作的准确性。然而,显式推理通常会产生不可忽略的推理延迟,这限制了机器人操作所需的时间分辨率。此外,这种推理被限制在语言空间中,造成了一种表征瓶颈,难以忠实地捕捉难以言表的物理属性。为了缓解这些限制,我们提出了LaST${0}$,一个通过隐空间时空链式思考(CoT)实现高效推理的框架,捕捉了通常难以用语言表达的细粒度物理和机器人动力学。具体来说,我们引入了一个token高效的隐空间CoT,用于建模未来的视觉动态、3D结构信息和机器人本体感受状态,并进一步在时间上扩展这些表示,以实现时间上一致的隐式推理轨迹。此外,LaST${0}$采用了一种通过混合Transformer设计实现的双系统架构,其中推理专家进行低频隐空间推理,而动作专家根据面向机器人的隐空间表示生成高频动作。为了促进协调,LaST${0}$采用异构操作频率进行训练,从而能够在部署期间自适应地切换推理和动作推理速率。在十个模拟和六个真实世界的操作任务中,LaST${0}$分别比之前的VLA方法提高了8%和13%的平均成功率,同时实现了显著更快的推理速度。

🔬 方法详解

问题定义:现有的视觉-语言-动作(VLA)模型在机器人操作任务中,通常依赖于显式的语言推理或未来的视觉预测来提高动作的准确性。然而,这种显式推理方式会引入显著的推理延迟,限制了机器人操作的实时性。此外,语言表达能力有限,难以捕捉细微的物理属性和机器人动力学,造成表征瓶颈。

核心思路:LaST$_{0}$的核心思路是通过隐空间时空链式思考(Latent Spatio-Temporal Chain-of-Thought, LaST CoT)来进行高效的推理。它将视觉动态、3D结构信息和机器人状态编码到隐空间中,避免了显式的语言推理,从而降低了推理延迟。同时,隐空间能够更好地捕捉难以言表的物理属性,克服了语言表达的局限性。

技术框架:LaST$_{0}$采用双系统架构,由推理专家和动作专家组成。推理专家以低频率在隐空间中进行推理,生成包含未来视觉动态、3D结构和机器人状态的隐空间表征。动作专家则以高频率基于这些隐空间表征生成具体的机器人动作。这种双系统架构允许模型在推理和动作执行之间进行自适应的切换,从而在保证动作准确性的同时,降低了整体的推理延迟。模型整体训练采用异构操作频率,模拟真实机器人操作场景。

关键创新:LaST$_{0}$的关键创新在于引入了隐空间时空链式思考(LaST CoT)。与传统的显式语言推理方法不同,LaST CoT将推理过程嵌入到隐空间中,避免了语言表达的瓶颈,并显著降低了推理延迟。此外,双系统架构和异构操作频率训练也使得模型能够更好地适应机器人操作的实时性要求。

关键设计:LaST$_{0}$使用混合Transformer架构来实现推理专家和动作专家。推理专家负责在低频率下更新隐空间状态,动作专家则基于隐空间状态生成高频率的动作指令。模型使用对比学习损失来学习隐空间表征,并使用行为克隆损失来训练动作专家。异构操作频率的训练通过调整推理专家和动作专家的更新频率来实现,使得模型能够在部署时自适应地切换推理和动作执行的频率。

📊 实验亮点

LaST${0}$在模拟和真实世界的机器人操作任务中均取得了显著的性能提升。在十个模拟任务中,LaST${0}$的平均成功率比之前的VLA方法提高了8%。在六个真实世界的操作任务中,LaST$_{0}$的平均成功率提高了13%,同时显著降低了推理时间,验证了其在实际应用中的有效性。

🎯 应用场景

LaST$_{0}$在机器人操作领域具有广泛的应用前景,例如工业自动化、家庭服务机器人、医疗机器人等。它可以应用于各种需要高精度和实时性的操作任务,例如物体抓取、装配、导航等。该研究成果有助于提升机器人的智能化水平,使其能够更好地适应复杂和动态的环境。

📄 摘要(原文)

Vision-Language-Action (VLA) models have recently demonstrated strong generalization capabilities in robotic manipulation. Some existing VLA approaches attempt to improve action accuracy by explicitly generating linguistic reasoning traces or future visual observations before action execution. However, explicit reasoning typically incurs non-negligible inference latency, which constrains the temporal resolution required for robotic manipulation. Moreover, such reasoning is confined to the linguistic space, imposing a representational bottleneck that struggles to faithfully capture ineffable physical attributes. To mitigate these limitations, we propose LaST$_0$, a framework that enables efficient reasoning before acting through a Latent Spatio-Temporal Chain-of-Thought (CoT), capturing fine-grained physical and robotic dynamics that are often difficult to verbalize. Specifically, we introduce a token-efficient latent CoT space that models future visual dynamics, 3D structural information, and robot proprioceptive states, and further extends these representations across time to enable temporally consistent implicit reasoning trajectories. Furthermore, LaST$_0$ adopts a dual-system architecture implemented via a Mixture-of-Transformers design, where a reasoning expert conducts low-frequency latent inference and an acting expert generates high-frequency actions conditioned on robotics-oriented latent representations. To facilitate coordination, LaST$_0$ is trained with heterogeneous operation frequencies, enabling adaptive switching between reasoning and action inference rates during deployment. Across ten simulated and six real-world manipulation tasks, LaST$_0$ improves mean success rates by 8% and 13% over prior VLA methods, respectively, while achieving substantially faster inference. Project website: https://sites.google.com/view/last0