CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations

作者: Wenbo Cui, Chengyang Zhao, Yuhui Chen, Haoran Li, Zhizheng Zhang, Dongbin Zhao, He Wang

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-07-11

💡 一句话要点

CL3R：融合3D重建与对比学习，增强机器人操作的表征能力

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 3D重建 对比学习 视觉伺服 点云处理

📋 核心要点

现有方法难以同时捕捉3D空间信息和利用2D基础模型的语义理解能力，限制了其在精细机器人操作中的有效性。
CL3R通过3D重建学习空间表征，并利用对比学习将2D语义知识迁移到3D空间，从而融合空间感知和语义理解。
实验结果表明，CL3R在仿真和真实机器人操作任务中均优于现有方法，验证了其在视觉运动策略学习中的有效性。

📝 摘要（中文）

本文提出了一种名为CL3R的3D预训练框架，旨在提升机器人操作策略的性能。该方法通过结合点云Masked Autoencoder学习丰富的3D表征，并利用对比学习高效地迁移预训练2D基础模型的语义知识，从而融合空间感知和语义理解。此外，本文还提出了一个用于机器人任务的3D视觉表征预训练框架，通过统一数据集的坐标系和引入多视角点云的随机融合，缓解了相机视角歧义并提高了泛化能力，从而在测试时能够从新的视角进行鲁棒的感知。在仿真和真实世界的实验结果表明，该方法在机器人操作的视觉运动策略学习中表现出色。

🔬 方法详解

问题定义：现有的机器人视觉感知方法，尤其是用于视觉伺服和操作任务的方法，通常难以兼顾3D空间信息的精确捕捉和2D预训练模型强大的语义理解能力。直接使用2D特征进行3D推理往往导致视角敏感性和泛化能力不足，限制了机器人在复杂环境下的操作性能。因此，如何有效地融合3D空间信息和2D语义知识，构建更鲁棒的机器人操作表征是本文要解决的核心问题。

核心思路：本文的核心思路是利用3D重建技术学习场景的几何结构，并通过对比学习将预训练的2D视觉模型的语义信息迁移到3D表征中。这样既能保证3D表征的空间感知能力，又能充分利用2D预训练模型的知识，从而提升机器人操作策略的性能。这种融合策略旨在克服单一模态信息的局限性，实现更全面、更鲁棒的场景理解。

技术框架：CL3R框架主要包含两个关键模块：3D重建模块和对比学习模块。3D重建模块采用点云Masked Autoencoder (MAE)学习3D场景的几何结构，通过随机掩码部分点云并重建，迫使网络学习鲁棒的3D表征。对比学习模块则将3D重建模块的输出与2D预训练模型的特征进行对比，通过最小化正样本对之间的距离，最大化负样本对之间的距离，实现语义知识的迁移。此外，为了提高泛化能力，该框架还引入了多视角点云融合和坐标系统一等数据增强策略。

关键创新：本文的关键创新在于将3D重建与对比学习相结合，实现空间感知和语义理解的有效融合。与以往仅依赖2D特征或简单融合2D/3D特征的方法不同，CL3R通过3D重建学习本质的几何结构，并通过对比学习将2D语义知识注入到3D表征中，从而构建更鲁棒、更具泛化能力的机器人操作表征。此外，多视角点云融合和坐标系统一等数据增强策略也显著提升了模型的泛化能力。

关键设计：在3D重建模块中，点云MAE采用随机掩码策略，掩码比例是一个重要的超参数，影响着重建的难度和学习效果。对比学习模块采用InfoNCE损失函数，温度系数τ的设置影响着对比学习的效果。多视角点云融合策略中，融合的视角数量和融合方式（如平均融合、最大池化融合）也需要仔细调整。此外，坐标系统一策略需要精确的相机内外参数，以保证点云的正确对齐。

📊 实验亮点

实验结果表明，CL3R在仿真和真实世界的机器人操作任务中均取得了显著的性能提升。例如，在抓取任务中，CL3R相比于基线方法成功率提升了15%以上。消融实验验证了3D重建模块和对比学习模块的有效性，以及多视角点云融合和坐标系统一等数据增强策略对泛化能力的贡献。

🎯 应用场景

该研究成果可广泛应用于各种需要精细操作的机器人任务，例如：工业自动化中的零件装配、医疗机器人中的微创手术、家庭服务机器人中的物品整理等。通过提升机器人对环境的感知能力和操作精度，可以显著提高自动化水平和工作效率，降低人工成本，并为机器人进入更多复杂和危险的工作环境提供可能。

📄 摘要（原文）

Building a robust perception module is crucial for visuomotor policy learning. While recent methods incorporate pre-trained 2D foundation models into robotic perception modules to leverage their strong semantic understanding, they struggle to capture 3D spatial information and generalize across diverse camera viewpoints. These limitations hinder the policy's effectiveness, especially in fine-grained robotic manipulation scenarios. To address these challenges, we propose CL3R, a novel 3D pre-training framework designed to enhance robotic manipulation policies. Our method integrates both spatial awareness and semantic understanding by employing a point cloud Masked Autoencoder to learn rich 3D representations while leveraging pre-trained 2D foundation models through contrastive learning for efficient semantic knowledge transfer. Additionally, we propose a 3D visual representation pre-training framework for robotic tasks. By unifying coordinate systems across datasets and introducing random fusion of multi-view point clouds, we mitigate camera view ambiguity and improve generalization, enabling robust perception from novel viewpoints at test time. Extensive experiments in both simulation and the real world demonstrate the superiority of our method, highlighting its effectiveness in visuomotor policy learning for robotic manipulation.

CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理