ViserDex: Visual Sim-to-Real for Robust Dexterous In-hand Reorientation

📄 arXiv: 2604.11138v1 📥 PDF

作者: Arjun Bhardwaj, Maximum Wilder-Smith, Mayank Mittal, Vaishakh Patil, Marco Hutter

分类: cs.RO, cs.CV

发布日期: 2026-04-13


💡 一句话要点

ViserDex:利用视觉Sim-to-Real实现鲁棒的灵巧手部物体重定向

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 灵巧操作 Sim-to-Real 3D高斯溅射 域随机化 物体重定向

📋 核心要点

  1. 现有手部物体重定向方法依赖多相机或昂贵的射线追踪,难以在单目RGB条件下实现精确姿态估计。
  2. 论文提出在3D高斯空间进行域随机化,生成逼真的随机数据,用于训练鲁棒的物体姿态估计器。
  3. 实验表明,基于3DGS训练的姿态估计器优于传统方法,并在真实多指机械手上验证了重定向的鲁棒性。

📝 摘要(中文)

本文提出了一种用于单目RGB图像灵巧手部物体重定向的sim-to-real框架,该框架集成了3D高斯溅射(3DGS)以弥合视觉sim-to-real的差距。核心思想是在高斯表示空间中执行域随机化:通过对3D高斯应用物理一致的预渲染增强,生成逼真的随机视觉数据用于物体姿态估计。操纵策略采用基于课程的强化学习和师生知识蒸馏进行训练,从而能够高效地学习复杂的行为。重要的是,感知和控制模型都可以独立地在消费级硬件上进行训练,无需大型计算集群。实验表明,使用3DGS数据训练的姿态估计器在具有挑战性的视觉环境中优于使用传统渲染数据训练的姿态估计器。在配备RGB相机的物理多指手上验证了该系统,证明了即使在具有挑战性的光照条件下也能对五个不同的物体进行鲁棒的重定向。结果表明,高斯溅射是仅使用RGB进行灵巧操作的一种实用方法。

🔬 方法详解

问题定义:论文旨在解决单目RGB视觉条件下,灵巧手部进行物体重定向时,由于光照变化、纹理缺失等因素导致的姿态估计不准确问题。现有方法依赖多相机或复杂的渲染技术,成本高昂且难以部署。

核心思路:论文的核心思路是利用3D高斯溅射(3DGS)技术,在高斯表示空间中进行域随机化。通过对3D高斯进行物理上合理的预渲染增强,生成大量逼真的、随机化的训练数据。这样可以有效地弥合仿真环境和真实环境之间的视觉差异,提高姿态估计器的鲁棒性。

技术框架:整体框架包括以下几个主要模块:1) 基于3DGS的场景表示与渲染;2) 在高斯空间进行域随机化,生成训练数据;3) 使用生成的数据训练物体姿态估计器;4) 使用课程学习和师生蒸馏训练操纵策略。感知和控制模型可以独立训练。

关键创新:最重要的技术创新点在于将3DGS引入到sim-to-real的灵巧操作中,并提出了在高斯空间进行域随机化的方法。与传统的基于网格或体素的渲染方法相比,3DGS具有更高的渲染效率和更好的视觉效果,更适合生成逼真的训练数据。在高斯空间进行域随机化,能够更有效地模拟真实环境中的光照变化和纹理差异。

关键设计:论文使用了基于课程的强化学习来训练操纵策略,并采用了师生蒸馏的方法来提高学习效率。具体的参数设置和网络结构在论文中有详细描述,包括高斯球的参数、域随机化的范围、以及强化学习的奖励函数等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用3DGS数据训练的姿态估计器在具有挑战性的视觉环境中显著优于使用传统渲染数据训练的姿态估计器。在真实多指机械手上,该系统能够鲁棒地重定向五个不同的物体,即使在具有挑战性的光照条件下也能稳定工作。这些结果验证了3DGS在RGB-only灵巧操作中的有效性和实用性。

🎯 应用场景

该研究成果可应用于机器人灵巧操作、自动化装配、医疗手术机器人等领域。通过提升单目视觉条件下的物体姿态估计精度和鲁棒性,可以降低对硬件设备的要求,提高机器人的适应性和智能化水平,从而在更广泛的场景中实现自动化操作。

📄 摘要(原文)

In-hand object reorientation requires precise estimation of the object pose to handle complex task dynamics. While RGB sensing offers rich semantic cues for pose tracking, existing solutions rely on multi-camera setups or costly ray tracing. We present a sim-to-real framework for monocular RGB in-hand reorientation that integrates 3D Gaussian Splatting (3DGS) to bridge the visual sim-to-real gap. Our key insight is performing domain randomization in the Gaussian representation space: by applying physically consistent, pre-rendering augmentations to 3D Gaussians, we generate photorealistic, randomized visual data for object pose estimation. The manipulation policy is trained using curriculum-based reinforcement learning with teacher-student distillation, enabling efficient learning of complex behaviors. Importantly, both perception and control models can be trained independently on consumer-grade hardware, eliminating the need for large compute clusters. Experiments show that the pose estimator trained with 3DGS data outperforms those trained using conventional rendering data in challenging visual environments. We validate the system on a physical multi-fingered hand equipped with an RGB camera, demonstrating robust reorientation of five diverse objects even under challenging lighting conditions. Our results highlight Gaussian splatting as a practical path for RGB-only dexterous manipulation. For videos of the hardware deployments and additional supplementary materials, please refer to the project website: https://rffr.leggedrobotics.com/works/viserdex/