ConsisVLA-4D: Advancing Spatiotemporal Consistency in Efficient 3D-Perception and 4D-Reasoning for Robotic Manipulation

📄 arXiv: 2605.05126v1 📥 PDF

作者: Wei Li, Jizhihui Liu, Li Yixing, Junwen Tong, Rui Shao, Liqiang Nie

分类: cs.RO

发布日期: 2026-05-06

备注: Accepted to CVPR 2026, Project Page: https://github.com/iLearn-Lab/CVPR26-ConsisVLA-4D


💡 一句话要点

ConsisVLA-4D:提升机器人操作中高效3D感知和4D推理的时空一致性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉语言动作模型 时空一致性 3D感知 4D推理

📋 核心要点

  1. 现有VLA模型在机器人操作中缺乏有效的时空感知和推理能力,依赖额外传感器导致计算开销大,且视觉推理与指令场景对齐不足。
  2. ConsisVLA-4D通过CV-Aligner、CO-Fuser和CS-Thinker三个模块,分别保证跨视图对象语义一致性、空间几何一致性和跨场景时空一致性。
  3. 实验结果表明,ConsisVLA-4D在LIBERO基准和真实场景中,性能分别提升21.6%和41.5%,推理速度分别提升2.3倍和2.4倍。

📝 摘要(中文)

现有的视觉-语言-动作(VLA)模型主要关注将2D观测映射到动作,但在时空感知和推理方面存在显著局限性:1)空间表示通常依赖额外的传感器,引入了大量的计算开销;2)视觉推理通常局限于未来帧预测,缺乏与指令相关的场景对齐,从而损害了时空一致性。为了解决这些挑战,我们提出了ConsisVLA-4D,一个统一且高效的框架,增强了3D感知和4D推理中的时空一致性。具体来说,我们设计了:1)CV-Aligner,通过过滤指令相关的区域并对齐多个视点上的对象身份,确保跨视图的对象语义一致性;2)CO-Fuser,通过使用紧凑的潜在表示消除跨视图对象之间的空间关系歧义,保证跨对象的空间几何一致性。在此基础上,我们引入了3)CS-Thinker,以实现随着动作展开的跨场景时空一致性。它从CV-Aligner的对象语义tokens中学习局部动态的隐式知识,并从CO-Fuser的几何tokens中学习全局深度,从而增强了场景变化下高效的视觉推理。大量的实验表明,受益于其高效的时空一致性设计,ConsisVLA-4D在LIBERO基准测试和真实世界平台上分别实现了21.6%和41.5%的性能提升,以及2.3倍和2.4倍的推理加速。ConsisVLA-4D已开源并公开可用。

🔬 方法详解

问题定义:现有VLA模型在机器人操作任务中,主要依赖2D图像信息,缺乏对3D空间和时间信息的有效利用。这导致模型在复杂场景下难以进行准确的感知和推理,尤其是在需要理解对象之间的空间关系和动作的时序变化时。此外,现有方法通常依赖额外的深度传感器来获取3D信息,增加了计算负担和系统复杂性。

核心思路:ConsisVLA-4D的核心思路是通过构建一个统一的框架,显式地建模和增强VLA模型在3D感知和4D推理中的时空一致性。该框架通过三个关键模块,分别解决了跨视图的对象语义一致性、跨对象的空间几何一致性以及跨场景的时空一致性问题。这样设计的目的是使模型能够更准确地理解场景中的对象、它们之间的关系以及它们随时间的变化,从而提高机器人操作的性能。

技术框架:ConsisVLA-4D框架包含三个主要模块:CV-Aligner、CO-Fuser和CS-Thinker。CV-Aligner负责确保跨视图的对象语义一致性,通过过滤指令相关的区域并对齐多个视点上的对象身份来实现。CO-Fuser负责保证跨对象的空间几何一致性,通过使用紧凑的潜在表示消除跨视图对象之间的空间关系歧义。CS-Thinker负责实现跨场景的时空一致性,它从CV-Aligner和CO-Fuser中学习局部动态的隐式知识和全局深度信息,从而增强场景变化下的视觉推理能力。

关键创新:ConsisVLA-4D的关键创新在于其统一的时空一致性建模方法。与现有方法不同,ConsisVLA-4D不依赖额外的传感器,而是通过学习和推理来显式地建模场景中的3D空间和时间信息。此外,该框架通过三个模块分别解决了不同层次的时空一致性问题,从而实现了更鲁棒和高效的感知和推理。

关键设计:CV-Aligner使用注意力机制来过滤指令相关的区域,并使用对象身份嵌入来对齐不同视点上的对象。CO-Fuser使用紧凑的潜在表示来编码对象之间的空间关系,并使用对比学习来消除歧义。CS-Thinker使用Transformer网络来学习局部动态的隐式知识和全局深度信息,并使用时间一致性损失来约束模型的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ConsisVLA-4D在LIBERO基准测试和真实世界平台上取得了显著的性能提升。在LIBERO上,ConsisVLA-4D的性能提升了21.6%,推理速度提升了2.3倍。在真实世界平台上,ConsisVLA-4D的性能提升了41.5%,推理速度提升了2.4倍。这些结果表明,ConsisVLA-4D在提高机器人操作的效率和准确性方面具有显著优势。

🎯 应用场景

ConsisVLA-4D具有广泛的应用前景,例如在智能制造、仓储物流、家庭服务等领域,可以提升机器人操作的智能化水平。该研究的实际价值在于降低了机器人对额外传感器的依赖,提高了感知和推理的效率和准确性。未来,该方法可以进一步扩展到更复杂的场景和任务中,例如多机器人协同操作、人机协作等。

📄 摘要(原文)

Current Vision-Language-Action (VLA) models primarily focus on mapping 2D observations to actions, but exhibit notable limitations in spatiotemporal perception and reasoning: 1) spatial representations often rely on additional sensors, introducing substantial computational overhead; 2) visual reasoning is typically limited to future-frame prediction, lacking alignment with the instruction-grounded scene and thus compromising spatiotemporal consistency. To address these challenges, we propose ConsisVLA-4D, a unified and efficient framework that enhances spatiotemporal consistency in 3D perception and 4D reasoning. Specifically, we design: 1) CV-Aligner, which ensures cross-view object semantic consistency by filtering instruction-relevant regions and aligning object identities across multiple viewpoints; 2) CO-Fuser, which guarantees cross-object spatial geometric consistency by eliminating spatial relation ambiguities between objects across views using compact latent representations. Building upon these, we introduce 3) CS-Thinker to achieve cross-scene spatiotemporal consistency as actions unfold. It learns implicit knowledge of local dynamics from object-semantic tokens of CV-Aligner and global depth from geometric tokens of CO-Fuser, thereby enhancing efficient visual reasoning under scene variations. Extensive experiments demonstrate that, benefiting from its efficient spatiotemporal consistency design, ConsisVLA-4D achieves 21.6% and 41.5% performance improvements, along with 2.3-fold and 2.4-fold inference speedups compared to OpenVLA on the LIBERO benchmark and real-world platforms, respectively.ConsisVLA-4D is open-sourced and publicly available at