VistaBot: View-Robust Robot Manipulation via Spatiotemporal-Aware View Synthesis
作者: Songen Gu, Yuhang Zheng, Weize Li, Yupeng Zheng, Yating Feng, Xiang Li, Yilun Chen, Pengfei Li, Wenchao Ding
分类: cs.RO
发布日期: 2026-04-23
备注: This paper has been accepted to ICRA 2026
💡 一句话要点
VistaBot:提出时空感知视图合成方法,提升机器人操作的视角鲁棒性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱八:物理动画 (Physics-based Animation)
关键词: 机器人操作 视角鲁棒性 视图合成 几何估计 扩散模型
📋 核心要点
- 端到端机器人操作模型虽然具有良好的泛化性和可扩展性,但在固定相机视角下训练时,对相机视角变化鲁棒性不足。
- VistaBot通过结合前馈几何模型和视频扩散模型,实现视角鲁棒的闭环操作,无需测试时相机标定,提升了模型在不同视角下的泛化能力。
- 实验结果表明,VistaBot在视角泛化分数(VGS)上显著优于ACT和$π_0$方法,并能生成高质量的新视角图像,验证了其有效性。
📝 摘要(中文)
本文提出VistaBot,一个新颖的框架,它结合了前馈几何模型和视频扩散模型,实现了视角鲁棒的闭环机器人操作,且无需在测试时进行相机标定。该方法包含三个关键组成部分:4D几何估计、视图合成潜在特征提取和潜在动作学习。VistaBot被集成到动作分块(ACT)和基于扩散的($π_0$)策略中,并在模拟和真实世界的任务中进行了评估。此外,本文还引入了视角泛化分数(VGS)作为一种新的指标,用于全面评估跨视角泛化能力。结果表明,VistaBot在ACT和$π_0$上的VGS分别提高了2.79倍和2.63倍,同时实现了高质量的新视角合成。本文的贡献包括几何感知合成模型、潜在动作规划器、新的基准指标以及在不同环境中的广泛验证。代码和模型将公开。
🔬 方法详解
问题定义:现有端到端机器人操作模型在固定相机视角下训练,当测试时相机视角发生变化时,模型的性能会显著下降。这是因为模型过度拟合了训练时的特定视角,缺乏跨视角泛化能力。因此,如何提升机器人操作模型在不同视角下的鲁棒性是一个关键问题。
核心思路:VistaBot的核心思路是利用几何信息和视频扩散模型来合成新的视角,从而增强模型对视角变化的适应性。通过学习一个与视角无关的潜在空间表示,模型可以在不同的视角下进行动作规划,而无需依赖于特定的相机标定。
技术框架:VistaBot框架主要包含三个模块:1) 4D几何估计模块,用于估计场景的几何信息;2) 视图合成潜在特征提取模块,利用几何信息和视频扩散模型合成新的视角,并提取潜在特征;3) 潜在动作学习模块,基于提取的潜在特征进行动作规划。整个流程是先通过几何估计获得场景的3D结构,然后利用扩散模型生成不同视角的图像,再提取这些图像的潜在特征,最后基于这些特征学习动作策略。
关键创新:VistaBot的关键创新在于将几何信息和视频扩散模型相结合,用于视图合成和潜在特征提取。这种方法可以有效地生成高质量的新视角图像,并学习到与视角无关的潜在空间表示。此外,本文还提出了一个新的视角泛化分数(VGS)作为评估跨视角泛化能力的指标。
关键设计:在4D几何估计模块中,可以使用现有的深度估计方法或SLAM算法。在视图合成潜在特征提取模块中,可以使用条件视频扩散模型,例如基于U-Net的架构,以几何信息作为条件输入。在潜在动作学习模块中,可以使用Transformer或RNN等序列模型进行动作规划。损失函数可以包括重构损失、对抗损失和动作预测损失等。
🖼️ 关键图片
📊 实验亮点
VistaBot在模拟和真实世界的任务中都取得了显著的性能提升。在视角泛化分数(VGS)上,VistaBot相比于ACT和$π_0$分别提高了2.79倍和2.63倍。此外,VistaBot还能够生成高质量的新视角图像,证明了其在视图合成方面的有效性。这些结果表明,VistaBot是一种有效的视角鲁棒机器人操作方法。
🎯 应用场景
VistaBot具有广泛的应用前景,例如在仓库自动化、家庭服务机器人、医疗机器人等领域。它可以使机器人在不同的视角下稳定地完成任务,提高机器人的适应性和鲁棒性。未来,该技术可以进一步扩展到更复杂的环境和任务中,例如在动态环境中进行操作或与人类进行协作。
📄 摘要(原文)
Recently, end-to-end robotic manipulation models have gained significant attention for their generalizability and scalability. However, they often suffer from limited robustness to camera viewpoint changes when training with a fixed camera. In this paper, we propose VistaBot, a novel framework that integrates feed-forward geometric models with video diffusion models to achieve view-robust closed-loop manipulation without requiring camera calibration at test time. Our approach consists of three key components: 4D geometry estimation, view synthesis latent extraction, and latent action learning. VistaBot is integrated into both action-chunking (ACT) and diffusion-based ($π_0$) policies and evaluated across simulation and real-world tasks. We further introduce the View Generalization Score (VGS) as a new metric for comprehensive evaluation of cross-view generalization. Results show that VistaBot improves VGS by 2.79$\times$ and 2.63$\times$ over ACT and $π_0$, respectively, while also achieving high-quality novel view synthesis. Our contributions include a geometry-aware synthesis model, a latent action planner, a new benchmark metric, and extensive validation across diverse environments. The code and models will be made publicly available.