ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations

📄 arXiv: 2509.11125v1 📥 PDF

作者: Zheng Li, Pei Qu, Yufei Jia, Shihui Zhou, Haizhou Ge, Jiahang Cao, Jinni Zhou, Guyue Zhou, Jun Ma

分类: cs.RO, cs.CV

发布日期: 2025-09-14

备注: 8 pages, 7 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

ManiVID-3D:通过解耦3D表示实现机器人操作的通用视角不变强化学习

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 强化学习 视角不变性 3D表示 解耦特征学习

📋 核心要点

  1. 现有视觉强化学习方法在机器人操作中受限于相机视角变化,固定视角训练的策略在视角改变时失效。
  2. ManiVID-3D通过自监督解耦特征学习,学习视角不变的3D表示,并使用ViewNet自动对齐不同视角的点云。
  3. 实验表明,ManiVID-3D在视角变化下比现有方法成功率高44.7%,参数减少80%,并具有良好的模拟到真实迁移能力。

📝 摘要(中文)

本文提出ManiVID-3D,一种用于机器人操作的新型3D强化学习架构,旨在解决视觉强化学习策略在真实世界操作中因相机视角变化而受限的问题。该架构通过自监督解耦特征学习来学习视角不变的表示。框架包含ViewNet模块,该模块能够自动将来自任意视角的点云观测对齐到统一的空间坐标系,无需外部校准。此外,还开发了一个高效的GPU加速批量渲染模块,能够以每秒超过5000帧的速度处理图像,从而以前所未有的速度实现大规模3D视觉强化学习训练。在10个模拟和5个真实世界任务中的大量评估表明,在视角变化下,该方法比最先进的方法实现了高44.7%的成功率,同时使用的参数减少了80%。该系统对严重视角变化的鲁棒性和强大的模拟到真实性能突出了学习几何一致表示对于在非结构化环境中可扩展机器人操作的有效性。

🔬 方法详解

问题定义:论文旨在解决机器人操作中,由于相机视角变化导致视觉强化学习策略泛化能力差的问题。现有方法通常依赖精确的相机标定,或者难以处理较大的视角变化,限制了其在真实世界复杂环境中的应用。

核心思路:论文的核心思路是学习视角不变的3D表示。通过将不同视角的观测对齐到统一的3D空间坐标系,使得策略能够学习到与视角无关的物体和环境特征,从而提高策略的泛化能力。这种方法避免了对精确相机标定的依赖,并且能够处理较大的视角变化。

技术框架:ManiVID-3D框架主要包含以下几个模块:1) 点云观测模块:从不同视角的相机获取点云数据。2) ViewNet模块:将来自不同视角的点云对齐到统一的空间坐标系。ViewNet是一个轻量级的神经网络,通过学习视角变换矩阵来实现对齐。3) 特征提取模块:从对齐后的点云中提取特征表示。4) 强化学习策略模块:根据提取的特征表示,学习控制机器人的动作。5) GPU加速批量渲染模块:用于生成大量训练数据,加速强化学习训练过程。

关键创新:论文的关键创新在于ViewNet模块和GPU加速批量渲染模块。ViewNet模块能够自动对齐不同视角的点云,无需外部校准,简化了系统部署。GPU加速批量渲染模块能够高效地生成大量训练数据,加速了强化学习训练过程。与现有方法相比,ManiVID-3D能够更好地处理视角变化,并且具有更强的泛化能力。

关键设计:ViewNet模块采用轻量级网络结构,以减少计算量。损失函数包括重构损失和对比损失,用于学习视角变换矩阵。GPU加速批量渲染模块采用CUDA并行计算,以提高渲染速度。强化学习策略采用Actor-Critic算法,并使用TD3算法进行训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ManiVID-3D在10个模拟和5个真实世界任务中进行了评估,结果表明,在视角变化下,ManiVID-3D比最先进的方法实现了高44.7%的成功率,同时使用的参数减少了80%。此外,该方法还表现出良好的模拟到真实迁移能力,表明其具有很强的泛化能力。

🎯 应用场景

ManiVID-3D具有广泛的应用前景,例如在仓库自动化、家庭服务机器人、医疗机器人等领域。该方法能够提高机器人在复杂、非结构化环境中操作的鲁棒性和泛化能力,降低对环境和传感器的要求,从而加速机器人的实际应用。

📄 摘要(原文)

Deploying visual reinforcement learning (RL) policies in real-world manipulation is often hindered by camera viewpoint changes. A policy trained from a fixed front-facing camera may fail when the camera is shifted--an unavoidable situation in real-world settings where sensor placement is hard to manage appropriately. Existing methods often rely on precise camera calibration or struggle with large perspective changes. To address these limitations, we propose ManiVID-3D, a novel 3D RL architecture designed for robotic manipulation, which learns view-invariant representations through self-supervised disentangled feature learning. The framework incorporates ViewNet, a lightweight yet effective module that automatically aligns point cloud observations from arbitrary viewpoints into a unified spatial coordinate system without the need for extrinsic calibration. Additionally, we develop an efficient GPU-accelerated batch rendering module capable of processing over 5000 frames per second, enabling large-scale training for 3D visual RL at unprecedented speeds. Extensive evaluation across 10 simulated and 5 real-world tasks demonstrates that our approach achieves a 44.7% higher success rate than state-of-the-art methods under viewpoint variations while using 80% fewer parameters. The system's robustness to severe perspective changes and strong sim-to-real performance highlight the effectiveness of learning geometrically consistent representations for scalable robotic manipulation in unstructured environments. Our project website can be found in https://zheng-joe-lee.github.io/manivid3d/.