Learning human-to-robot handovers through 3D scene reconstruction

作者: Yuekun Wu, Yik Lung Pang, Andrea Cavallaro, Changjae Oh

分类: cs.RO, cs.CV

发布日期: 2025-07-11

备注: 8 pages, 6 figures, 2 table

💡 一句话要点

提出H2RH-SGS，利用稀疏视图高斯溅射重建学习人机物体交接策略。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting)

关键词: 人机协作 机器人学习 高斯溅射 场景重建 物体交接

📋 核心要点

现有方法依赖大量真实机器人交互数据，成本高昂，仿真训练存在真实环境与仿真环境的视觉差异。
利用稀疏视图高斯溅射重建人机交接场景，生成高质量的机器人演示数据，弥合仿真与现实的差距。
实验表明，仅使用RGB图像训练的策略可以直接部署到真实机器人上，实现了有效的人机物体交接。

📝 摘要（中文）

本文提出了一种名为H2RH-SGS的方法，用于仅从RGB图像中学习基于监督学习的机器人物体交接策略，无需真实的机器人训练或数据收集。该方法利用稀疏视图高斯溅射重建人机交接场景，生成包含图像-动作对的机器人演示数据，这些数据由安装在机器人夹具上的相机捕获。重建场景中模拟的相机姿态变化可以直接转换为夹具姿态变化。使用16种家居物品收集的演示数据训练机器人策略，并直接部署到真实环境中。在高斯溅射重建场景和真实世界的人机交接实验中，结果表明H2RH-SGS为该任务提供了一种新的有效表示。

🔬 方法详解

问题定义：论文旨在解决机器人人机物体交接任务中，依赖大量真实机器人交互数据进行策略学习的问题。现有方法要么需要耗费大量时间和资源在真实机器人上进行训练，要么依赖仿真环境，但仿真环境与真实环境存在视觉差异，导致训练的策略难以直接迁移到真实机器人上。

核心思路：论文的核心思路是利用高斯溅射（Gaussian Splatting）技术，从少量RGB图像中重建出逼真的人机交接场景。通过在重建场景中模拟机器人夹具的运动，生成大量的图像-动作对作为训练数据，从而避免了对真实机器人数据的依赖。

技术框架：H2RH-SGS方法主要包含以下几个阶段：1) 使用少量RGB图像重建人机交接场景的高斯溅射模型；2) 在重建场景中，通过改变虚拟相机（模拟机器人夹具上的相机）的姿态，生成大量的图像-动作对；3) 使用生成的图像-动作对训练机器人控制策略；4) 将训练好的策略直接部署到真实机器人上进行人机交接实验。

关键创新：该方法最重要的创新点在于利用高斯溅射技术重建人机交接场景，并从中生成机器人训练数据。这使得机器人策略的学习不再依赖于真实机器人数据，从而大大降低了训练成本和难度。此外，该方法能够直接从RGB图像中学习策略，无需额外的深度信息或其他传感器数据。

关键设计：论文中使用了稀疏视图的高斯溅射重建方法，以减少重建所需的图像数量。在生成训练数据时，通过随机改变虚拟相机的姿态来增加数据的多样性。策略学习部分，具体使用的网络结构和损失函数未知，但强调了直接从图像到动作的端到端学习。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用H2RH-SGS方法训练的机器人策略可以直接部署到真实环境中，成功完成人机物体交接任务。虽然论文中没有给出具体的性能指标，但强调了该方法在真实环境中的有效性，证明了高斯溅射重建场景作为机器人训练数据来源的可行性。

🎯 应用场景

该研究成果可应用于各种人机协作场景，例如：智能制造、医疗康复、家庭服务等。通过学习人类的动作示范，机器人可以更安全、更高效地完成各种任务。该方法降低了机器人学习的成本，加速了机器人技术在实际场景中的应用。

📄 摘要（原文）

Learning robot manipulation policies from raw, real-world image data requires a large number of robot-action trials in the physical environment. Although training using simulations offers a cost-effective alternative, the visual domain gap between simulation and robot workspace remains a major limitation. Gaussian Splatting visual reconstruction methods have recently provided new directions for robot manipulation by generating realistic environments. In this paper, we propose the first method for learning supervised-based robot handovers solely from RGB images without the need of real-robot training or real-robot data collection. The proposed policy learner, Human-to-Robot Handover using Sparse-View Gaussian Splatting (H2RH-SGS), leverages sparse-view Gaussian Splatting reconstruction of human-to-robot handover scenes to generate robot demonstrations containing image-action pairs captured with a camera mounted on the robot gripper. As a result, the simulated camera pose changes in the reconstructed scene can be directly translated into gripper pose changes. We train a robot policy on demonstrations collected with 16 household objects and {\em directly} deploy this policy in the real environment. Experiments in both Gaussian Splatting reconstructed scene and real-world human-to-robot handover experiments demonstrate that H2RH-SGS serves as a new and effective representation for the human-to-robot handover task.

Learning human-to-robot handovers through 3D scene reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理