VistaBot: View-Robust Robot Manipulation via Spatiotemporal-Aware View Synthesis

作者: Songen Gu, Yuhang Zheng, Weize Li, Yupeng Zheng, Yating Feng, Xiang Li, Yilun Chen, Pengfei Li, Wenchao Ding

分类: cs.RO

发布日期: 2026-04-23

备注: This paper has been accepted to ICRA 2026

💡 一句话要点

VistaBot：提出时空感知视图合成方法，提升机器人操作的视角鲁棒性

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱八：物理动画 (Physics-based Animation)

关键词: 机器人操作 视角鲁棒性 视图合成 几何估计 扩散模型

📋 核心要点

端到端机器人操作模型虽然具有良好的泛化性和可扩展性，但在固定相机视角下训练时，对相机视角变化鲁棒性不足。
VistaBot通过结合前馈几何模型和视频扩散模型，实现视角鲁棒的闭环操作，无需测试时相机标定，提升了模型在不同视角下的泛化能力。
实验结果表明，VistaBot在视角泛化分数(VGS)上显著优于ACT和$π_0$方法，并能生成高质量的新视角图像，验证了其有效性。

📝 摘要（中文）

本文提出VistaBot，一个新颖的框架，它结合了前馈几何模型和视频扩散模型，实现了视角鲁棒的闭环机器人操作，且无需在测试时进行相机标定。该方法包含三个关键组成部分：4D几何估计、视图合成潜在特征提取和潜在动作学习。VistaBot被集成到动作分块(ACT)和基于扩散的($π_0$)策略中，并在模拟和真实世界的任务中进行了评估。此外，本文还引入了视角泛化分数(VGS)作为一种新的指标，用于全面评估跨视角泛化能力。结果表明，VistaBot在ACT和$π_0$上的VGS分别提高了2.79倍和2.63倍，同时实现了高质量的新视角合成。本文的贡献包括几何感知合成模型、潜在动作规划器、新的基准指标以及在不同环境中的广泛验证。代码和模型将公开。

🔬 方法详解

问题定义：现有端到端机器人操作模型在固定相机视角下训练，当测试时相机视角发生变化时，模型的性能会显著下降。这是因为模型过度拟合了训练时的特定视角，缺乏跨视角泛化能力。因此，如何提升机器人操作模型在不同视角下的鲁棒性是一个关键问题。

核心思路：VistaBot的核心思路是利用几何信息和视频扩散模型来合成新的视角，从而增强模型对视角变化的适应性。通过学习一个与视角无关的潜在空间表示，模型可以在不同的视角下进行动作规划，而无需依赖于特定的相机标定。

技术框架：VistaBot框架主要包含三个模块：1) 4D几何估计模块，用于估计场景的几何信息；2) 视图合成潜在特征提取模块，利用几何信息和视频扩散模型合成新的视角，并提取潜在特征；3) 潜在动作学习模块，基于提取的潜在特征进行动作规划。整个流程是先通过几何估计获得场景的3D结构，然后利用扩散模型生成不同视角的图像，再提取这些图像的潜在特征，最后基于这些特征学习动作策略。

关键创新：VistaBot的关键创新在于将几何信息和视频扩散模型相结合，用于视图合成和潜在特征提取。这种方法可以有效地生成高质量的新视角图像，并学习到与视角无关的潜在空间表示。此外，本文还提出了一个新的视角泛化分数(VGS)作为评估跨视角泛化能力的指标。

关键设计：在4D几何估计模块中，可以使用现有的深度估计方法或SLAM算法。在视图合成潜在特征提取模块中，可以使用条件视频扩散模型，例如基于U-Net的架构，以几何信息作为条件输入。在潜在动作学习模块中，可以使用Transformer或RNN等序列模型进行动作规划。损失函数可以包括重构损失、对抗损失和动作预测损失等。

🖼️ 关键图片

📊 实验亮点

VistaBot在模拟和真实世界的任务中都取得了显著的性能提升。在视角泛化分数(VGS)上，VistaBot相比于ACT和$π_0$分别提高了2.79倍和2.63倍。此外，VistaBot还能够生成高质量的新视角图像，证明了其在视图合成方面的有效性。这些结果表明，VistaBot是一种有效的视角鲁棒机器人操作方法。

🎯 应用场景

VistaBot具有广泛的应用前景，例如在仓库自动化、家庭服务机器人、医疗机器人等领域。它可以使机器人在不同的视角下稳定地完成任务，提高机器人的适应性和鲁棒性。未来，该技术可以进一步扩展到更复杂的环境和任务中，例如在动态环境中进行操作或与人类进行协作。

📄 摘要（原文）

Recently, end-to-end robotic manipulation models have gained significant attention for their generalizability and scalability. However, they often suffer from limited robustness to camera viewpoint changes when training with a fixed camera. In this paper, we propose VistaBot, a novel framework that integrates feed-forward geometric models with video diffusion models to achieve view-robust closed-loop manipulation without requiring camera calibration at test time. Our approach consists of three key components: 4D geometry estimation, view synthesis latent extraction, and latent action learning. VistaBot is integrated into both action-chunking (ACT) and diffusion-based ($π_0$) policies and evaluated across simulation and real-world tasks. We further introduce the View Generalization Score (VGS) as a new metric for comprehensive evaluation of cross-view generalization. Results show that VistaBot improves VGS by 2.79$\times$ and 2.63$\times$ over ACT and $π_0$, respectively, while also achieving high-quality novel view synthesis. Our contributions include a geometry-aware synthesis model, a latent action planner, a new benchmark metric, and extensive validation across diverse environments. The code and models will be made publicly available.

VistaBot: View-Robust Robot Manipulation via Spatiotemporal-Aware View Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理