Learning human-to-robot handovers through 3D scene reconstruction

📄 arXiv: 2507.08726v1 📥 PDF

作者: Yuekun Wu, Yik Lung Pang, Andrea Cavallaro, Changjae Oh

分类: cs.RO, cs.CV

发布日期: 2025-07-11

备注: 8 pages, 6 figures, 2 table


💡 一句话要点

提出H2RH-SGS,利用稀疏视图高斯溅射重建学习人机物体交接策略。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 人机协作 机器人学习 高斯溅射 场景重建 物体交接

📋 核心要点

  1. 现有方法依赖大量真实机器人交互数据,成本高昂,仿真训练存在真实环境与仿真环境的视觉差异。
  2. 利用稀疏视图高斯溅射重建人机交接场景,生成高质量的机器人演示数据,弥合仿真与现实的差距。
  3. 实验表明,仅使用RGB图像训练的策略可以直接部署到真实机器人上,实现了有效的人机物体交接。

📝 摘要(中文)

本文提出了一种名为H2RH-SGS的方法,用于仅从RGB图像中学习基于监督学习的机器人物体交接策略,无需真实的机器人训练或数据收集。该方法利用稀疏视图高斯溅射重建人机交接场景,生成包含图像-动作对的机器人演示数据,这些数据由安装在机器人夹具上的相机捕获。重建场景中模拟的相机姿态变化可以直接转换为夹具姿态变化。使用16种家居物品收集的演示数据训练机器人策略,并直接部署到真实环境中。在高斯溅射重建场景和真实世界的人机交接实验中,结果表明H2RH-SGS为该任务提供了一种新的有效表示。

🔬 方法详解

问题定义:论文旨在解决机器人人机物体交接任务中,依赖大量真实机器人交互数据进行策略学习的问题。现有方法要么需要耗费大量时间和资源在真实机器人上进行训练,要么依赖仿真环境,但仿真环境与真实环境存在视觉差异,导致训练的策略难以直接迁移到真实机器人上。

核心思路:论文的核心思路是利用高斯溅射(Gaussian Splatting)技术,从少量RGB图像中重建出逼真的人机交接场景。通过在重建场景中模拟机器人夹具的运动,生成大量的图像-动作对作为训练数据,从而避免了对真实机器人数据的依赖。

技术框架:H2RH-SGS方法主要包含以下几个阶段:1) 使用少量RGB图像重建人机交接场景的高斯溅射模型;2) 在重建场景中,通过改变虚拟相机(模拟机器人夹具上的相机)的姿态,生成大量的图像-动作对;3) 使用生成的图像-动作对训练机器人控制策略;4) 将训练好的策略直接部署到真实机器人上进行人机交接实验。

关键创新:该方法最重要的创新点在于利用高斯溅射技术重建人机交接场景,并从中生成机器人训练数据。这使得机器人策略的学习不再依赖于真实机器人数据,从而大大降低了训练成本和难度。此外,该方法能够直接从RGB图像中学习策略,无需额外的深度信息或其他传感器数据。

关键设计:论文中使用了稀疏视图的高斯溅射重建方法,以减少重建所需的图像数量。在生成训练数据时,通过随机改变虚拟相机的姿态来增加数据的多样性。策略学习部分,具体使用的网络结构和损失函数未知,但强调了直接从图像到动作的端到端学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用H2RH-SGS方法训练的机器人策略可以直接部署到真实环境中,成功完成人机物体交接任务。虽然论文中没有给出具体的性能指标,但强调了该方法在真实环境中的有效性,证明了高斯溅射重建场景作为机器人训练数据来源的可行性。

🎯 应用场景

该研究成果可应用于各种人机协作场景,例如:智能制造、医疗康复、家庭服务等。通过学习人类的动作示范,机器人可以更安全、更高效地完成各种任务。该方法降低了机器人学习的成本,加速了机器人技术在实际场景中的应用。

📄 摘要(原文)

Learning robot manipulation policies from raw, real-world image data requires a large number of robot-action trials in the physical environment. Although training using simulations offers a cost-effective alternative, the visual domain gap between simulation and robot workspace remains a major limitation. Gaussian Splatting visual reconstruction methods have recently provided new directions for robot manipulation by generating realistic environments. In this paper, we propose the first method for learning supervised-based robot handovers solely from RGB images without the need of real-robot training or real-robot data collection. The proposed policy learner, Human-to-Robot Handover using Sparse-View Gaussian Splatting (H2RH-SGS), leverages sparse-view Gaussian Splatting reconstruction of human-to-robot handover scenes to generate robot demonstrations containing image-action pairs captured with a camera mounted on the robot gripper. As a result, the simulated camera pose changes in the reconstructed scene can be directly translated into gripper pose changes. We train a robot policy on demonstrations collected with 16 household objects and {\em directly} deploy this policy in the real environment. Experiments in both Gaussian Splatting reconstructed scene and real-world human-to-robot handover experiments demonstrate that H2RH-SGS serves as a new and effective representation for the human-to-robot handover task.