Novel Demonstration Generation with Gaussian Splatting Enables Robust One-Shot Manipulation
作者: Sizhe Yang, Wenye Yu, Jia Zeng, Jun Lv, Kerui Ren, Cewu Lu, Dahua Lin, Jiangmiao Pang
分类: cs.RO
发布日期: 2025-04-17
备注: Published at Robotics: Science and Systems (RSS) 2025
💡 一句话要点
RoboSplat:利用高斯溅射生成多样化演示,实现鲁棒的单样本操作
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 机器人操作 单样本学习 3D高斯溅射 数据增强 视觉运动策略 泛化能力 场景重建
📋 核心要点
- 现有方法在视觉运动策略学习中面临数据收集难、泛化性差的问题,主要受限于2D数据增强或不精确的物理模拟。
- RoboSplat通过3D高斯溅射重建场景,并直接在3D空间中编辑和增强数据,从而生成多样且逼真的演示。
- 实验表明,RoboSplat在单样本学习中显著提升了视觉运动策略的泛化能力,超越了传统方法。
📝 摘要(中文)
本文提出RoboSplat,一种通过直接操纵3D高斯体来生成多样化、视觉逼真演示的新方法,旨在解决远程操作演示学习中数据收集耗时、成本高昂和数据多样性有限等问题。该方法首先通过3D高斯溅射(3DGS)重建场景,然后直接编辑重建的场景,并通过六种泛化类型和五种技术来扩充数据:3D高斯替换用于改变物体类型、场景外观和机器人形态;等变变换用于不同的物体姿态;视觉属性编辑用于各种光照条件;新视角合成用于新的相机视角;3D内容生成用于多样化的物体类型。真实的实验结果表明,RoboSplat显著增强了视觉运动策略在各种扰动下的泛化能力。值得注意的是,在真实世界中,使用数百个真实演示和额外的2D数据增强训练的策略平均成功率为57.2%,而RoboSplat在单样本设置下,在六种泛化类型中达到了87.8%的成功率。
🔬 方法详解
问题定义:现有基于远程操作演示学习的视觉运动策略,面临数据收集成本高、耗时,以及数据多样性不足的问题。传统的RGB图像增强方法局限于2D空间,而基于物理引擎的Real-to-Sim-to-Real方法又受到几何重建精度不足导致的物理模拟不准确的影响,最终限制了策略的泛化能力。
核心思路:RoboSplat的核心思路是利用3D高斯溅射(3DGS)技术,将场景重建为可编辑的3D高斯表示,然后直接在3D空间中对高斯体进行操作,生成多样化的训练数据。这种方法避免了2D增强的局限性,也绕过了不精确的物理模拟,从而能够更有效地提升策略的泛化能力。
技术框架:RoboSplat的整体框架包含以下几个主要阶段:1) 使用3DGS重建真实场景;2) 对重建的3D高斯场景进行编辑和增强,包括物体替换、姿态变换、视觉属性编辑、新视角合成和3D内容生成;3) 使用生成的数据训练视觉运动策略;4) 在真实环境中评估策略的性能。
关键创新:RoboSplat的关键创新在于直接在3D高斯表示上进行数据增强。与传统的2D图像增强或基于物理模拟的增强方法不同,RoboSplat能够更精确地控制场景的几何和外观属性,从而生成更逼真、更多样化的训练数据。这种方法能够有效地弥补真实数据不足的问题,并提升策略的泛化能力。
关键设计:RoboSplat的关键设计包括:1) 使用3D高斯替换来实现物体类型、场景外观和机器人形态的变化;2) 使用等变变换来实现物体姿态的变化;3) 使用视觉属性编辑来实现光照条件的变化;4) 使用新视角合成来实现相机视角的变换;5) 使用3D内容生成来实现多样化的物体类型。这些技术细节共同保证了生成数据的多样性和真实性,从而提升了策略的泛化能力。具体的参数设置和损失函数等细节在论文中进行了详细描述,但此处无法完全展开。
🖼️ 关键图片
📊 实验亮点
RoboSplat在真实世界的实验中表现出色。在单样本学习设置下,RoboSplat在六种泛化类型中达到了87.8%的平均成功率,而使用数百个真实演示和额外的2D数据增强训练的策略仅达到57.2%的平均成功率。这表明RoboSplat能够显著提升视觉运动策略的泛化能力,并降低对大量真实数据的依赖。
🎯 应用场景
RoboSplat具有广泛的应用前景,可应用于机器人操作、自动驾驶、虚拟现实等领域。该方法能够显著降低机器人学习的成本,提高机器人在复杂环境中的适应能力。例如,在工业自动化中,RoboSplat可以用于快速生成各种工件的操作演示,从而实现机器人的快速部署和适应。在家庭服务机器人领域,RoboSplat可以用于生成各种家居场景的操作演示,从而提高机器人的智能化水平。
📄 摘要(原文)
Visuomotor policies learned from teleoperated demonstrations face challenges such as lengthy data collection, high costs, and limited data diversity. Existing approaches address these issues by augmenting image observations in RGB space or employing Real-to-Sim-to-Real pipelines based on physical simulators. However, the former is constrained to 2D data augmentation, while the latter suffers from imprecise physical simulation caused by inaccurate geometric reconstruction. This paper introduces RoboSplat, a novel method that generates diverse, visually realistic demonstrations by directly manipulating 3D Gaussians. Specifically, we reconstruct the scene through 3D Gaussian Splatting (3DGS), directly edit the reconstructed scene, and augment data across six types of generalization with five techniques: 3D Gaussian replacement for varying object types, scene appearance, and robot embodiments; equivariant transformations for different object poses; visual attribute editing for various lighting conditions; novel view synthesis for new camera perspectives; and 3D content generation for diverse object types. Comprehensive real-world experiments demonstrate that RoboSplat significantly enhances the generalization of visuomotor policies under diverse disturbances. Notably, while policies trained on hundreds of real-world demonstrations with additional 2D data augmentation achieve an average success rate of 57.2%, RoboSplat attains 87.8% in one-shot settings across six types of generalization in the real world.