ConsisVLA-4D: Advancing Spatiotemporal Consistency in Efficient 3D-Perception and 4D-Reasoning for Robotic Manipulation

作者: Wei Li, Jizhihui Liu, Li Yixing, Junwen Tong, Rui Shao, Liqiang Nie

分类: cs.RO

发布日期: 2026-05-06

备注: Accepted to CVPR 2026, Project Page: https://github.com/iLearn-Lab/CVPR26-ConsisVLA-4D

💡 一句话要点

ConsisVLA-4D：提升机器人操作中高效3D感知和4D推理的时空一致性

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉语言动作模型 时空一致性 3D感知 4D推理

📋 核心要点

现有VLA模型在机器人操作中缺乏有效的时空感知和推理能力，依赖额外传感器导致计算开销大，且视觉推理与指令场景对齐不足。
ConsisVLA-4D通过CV-Aligner、CO-Fuser和CS-Thinker三个模块，分别保证跨视图对象语义一致性、空间几何一致性和跨场景时空一致性。
实验结果表明，ConsisVLA-4D在LIBERO基准和真实场景中，性能分别提升21.6%和41.5%，推理速度分别提升2.3倍和2.4倍。

📝 摘要（中文）

现有的视觉-语言-动作（VLA）模型主要关注将2D观测映射到动作，但在时空感知和推理方面存在显著局限性：1）空间表示通常依赖额外的传感器，引入了大量的计算开销；2）视觉推理通常局限于未来帧预测，缺乏与指令相关的场景对齐，从而损害了时空一致性。为了解决这些挑战，我们提出了ConsisVLA-4D，一个统一且高效的框架，增强了3D感知和4D推理中的时空一致性。具体来说，我们设计了：1）CV-Aligner，通过过滤指令相关的区域并对齐多个视点上的对象身份，确保跨视图的对象语义一致性；2）CO-Fuser，通过使用紧凑的潜在表示消除跨视图对象之间的空间关系歧义，保证跨对象的空间几何一致性。在此基础上，我们引入了3）CS-Thinker，以实现随着动作展开的跨场景时空一致性。它从CV-Aligner的对象语义tokens中学习局部动态的隐式知识，并从CO-Fuser的几何tokens中学习全局深度，从而增强了场景变化下高效的视觉推理。大量的实验表明，受益于其高效的时空一致性设计，ConsisVLA-4D在LIBERO基准测试和真实世界平台上分别实现了21.6%和41.5%的性能提升，以及2.3倍和2.4倍的推理加速。ConsisVLA-4D已开源并公开可用。

🔬 方法详解

问题定义：现有VLA模型在机器人操作任务中，主要依赖2D图像信息，缺乏对3D空间和时间信息的有效利用。这导致模型在复杂场景下难以进行准确的感知和推理，尤其是在需要理解对象之间的空间关系和动作的时序变化时。此外，现有方法通常依赖额外的深度传感器来获取3D信息，增加了计算负担和系统复杂性。

核心思路：ConsisVLA-4D的核心思路是通过构建一个统一的框架，显式地建模和增强VLA模型在3D感知和4D推理中的时空一致性。该框架通过三个关键模块，分别解决了跨视图的对象语义一致性、跨对象的空间几何一致性以及跨场景的时空一致性问题。这样设计的目的是使模型能够更准确地理解场景中的对象、它们之间的关系以及它们随时间的变化，从而提高机器人操作的性能。

技术框架：ConsisVLA-4D框架包含三个主要模块：CV-Aligner、CO-Fuser和CS-Thinker。CV-Aligner负责确保跨视图的对象语义一致性，通过过滤指令相关的区域并对齐多个视点上的对象身份来实现。CO-Fuser负责保证跨对象的空间几何一致性，通过使用紧凑的潜在表示消除跨视图对象之间的空间关系歧义。CS-Thinker负责实现跨场景的时空一致性，它从CV-Aligner和CO-Fuser中学习局部动态的隐式知识和全局深度信息，从而增强场景变化下的视觉推理能力。

关键创新：ConsisVLA-4D的关键创新在于其统一的时空一致性建模方法。与现有方法不同，ConsisVLA-4D不依赖额外的传感器，而是通过学习和推理来显式地建模场景中的3D空间和时间信息。此外，该框架通过三个模块分别解决了不同层次的时空一致性问题，从而实现了更鲁棒和高效的感知和推理。

关键设计：CV-Aligner使用注意力机制来过滤指令相关的区域，并使用对象身份嵌入来对齐不同视点上的对象。CO-Fuser使用紧凑的潜在表示来编码对象之间的空间关系，并使用对比学习来消除歧义。CS-Thinker使用Transformer网络来学习局部动态的隐式知识和全局深度信息，并使用时间一致性损失来约束模型的输出。

🖼️ 关键图片

📊 实验亮点

ConsisVLA-4D在LIBERO基准测试和真实世界平台上取得了显著的性能提升。在LIBERO上，ConsisVLA-4D的性能提升了21.6%，推理速度提升了2.3倍。在真实世界平台上，ConsisVLA-4D的性能提升了41.5%，推理速度提升了2.4倍。这些结果表明，ConsisVLA-4D在提高机器人操作的效率和准确性方面具有显著优势。

🎯 应用场景

ConsisVLA-4D具有广泛的应用前景，例如在智能制造、仓储物流、家庭服务等领域，可以提升机器人操作的智能化水平。该研究的实际价值在于降低了机器人对额外传感器的依赖，提高了感知和推理的效率和准确性。未来，该方法可以进一步扩展到更复杂的场景和任务中，例如多机器人协同操作、人机协作等。

📄 摘要（原文）

Current Vision-Language-Action (VLA) models primarily focus on mapping 2D observations to actions, but exhibit notable limitations in spatiotemporal perception and reasoning: 1) spatial representations often rely on additional sensors, introducing substantial computational overhead; 2) visual reasoning is typically limited to future-frame prediction, lacking alignment with the instruction-grounded scene and thus compromising spatiotemporal consistency. To address these challenges, we propose ConsisVLA-4D, a unified and efficient framework that enhances spatiotemporal consistency in 3D perception and 4D reasoning. Specifically, we design: 1) CV-Aligner, which ensures cross-view object semantic consistency by filtering instruction-relevant regions and aligning object identities across multiple viewpoints; 2) CO-Fuser, which guarantees cross-object spatial geometric consistency by eliminating spatial relation ambiguities between objects across views using compact latent representations. Building upon these, we introduce 3) CS-Thinker to achieve cross-scene spatiotemporal consistency as actions unfold. It learns implicit knowledge of local dynamics from object-semantic tokens of CV-Aligner and global depth from geometric tokens of CO-Fuser, thereby enhancing efficient visual reasoning under scene variations. Extensive experiments demonstrate that, benefiting from its efficient spatiotemporal consistency design, ConsisVLA-4D achieves 21.6% and 41.5% performance improvements, along with 2.3-fold and 2.4-fold inference speedups compared to OpenVLA on the LIBERO benchmark and real-world platforms, respectively.ConsisVLA-4D is open-sourced and publicly available at

ConsisVLA-4D: Advancing Spatiotemporal Consistency in Efficient 3D-Perception and 4D-Reasoning for Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理