Point Bridge: 3D Representations for Cross Domain Policy Learning

作者: Siddhant Haldar, Lars Johannsmeier, Lerrel Pinto, Abhishek Gupta, Dieter Fox, Yashraj Narang, Ajay Mandlekar

分类: cs.RO

发布日期: 2026-01-22

💡 一句话要点

Point Bridge：利用点云表示实现跨域策略学习，解决Sim2Real迁移问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 Sim2Real 点云表示 视觉-语言模型 Transformer 策略学习 领域自适应

📋 核心要点

真实世界机器人操作数据稀缺，Sim2Real迁移受视觉领域差异限制，阻碍了通用机器人代理的发展。
Point Bridge利用领域无关的点云表示，结合VLM提取、Transformer策略学习，实现高效的Sim2Real迁移。
实验表明，Point Bridge在零样本Sim2Real迁移和少量真实数据协同训练下，性能显著优于现有方法。

📝 摘要（中文）

机器人基础模型正逐渐展现通用机器人代理的潜力，但大规模真实世界操作数据集的稀缺性限制了其发展。仿真和合成数据生成提供了一种可扩展的替代方案，但仿真与现实之间的视觉领域差距限制了它们的有效性。本文提出了Point Bridge，一个利用统一的、领域无关的基于点的表示的框架，以实现零样本Sim2Real策略迁移，无需显式的视觉或对象级别对齐。Point Bridge结合了通过视觉-语言模型(VLM)自动提取的基于点的表示、基于Transformer的策略学习和高效的推理时流水线，仅使用合成数据即可训练出强大的真实世界操作代理。通过在少量真实演示数据上进行额外的协同训练，Point Bridge进一步提高了性能，显著优于以往基于视觉的Sim-and-Real协同训练方法。在单任务和多任务设置中，它实现了高达44%的零样本Sim2Real迁移增益，以及高达66%的有限真实数据增益。

🔬 方法详解

问题定义：现有方法在机器人操作任务中，依赖大量真实数据，成本高昂。使用仿真数据进行训练，再迁移到真实环境时，由于视觉领域差异，性能显著下降。现有Sim2Real方法需要显式的视觉或对象级别对齐，过程复杂且效果有限。

核心思路：Point Bridge的核心在于使用领域无关的点云表示作为中间桥梁，连接仿真环境和真实环境。通过视觉-语言模型(VLM)提取场景的点云表示，避免了直接处理像素级别的图像差异。Transformer模型用于学习点云表示上的策略，从而实现策略的跨域迁移。

技术框架：Point Bridge包含三个主要模块：1) 基于VLM的点云表示提取模块，将图像转换为点云；2) 基于Transformer的策略学习模块，学习点云表示上的动作策略；3) 推理时流水线，将训练好的策略部署到真实机器人上。整个流程无需显式的领域对齐或对象识别。

关键创新：Point Bridge的关键创新在于使用点云作为统一的、领域无关的表示。与直接使用图像或特征向量相比，点云表示更加简洁、鲁棒，并且能够更好地捕捉场景的几何结构。此外，利用VLM自动提取点云表示，避免了手动设计特征的繁琐过程。

关键设计：VLM使用CLIP模型，将图像编码为视觉特征，然后通过一个可学习的映射网络将视觉特征转换为点云。Transformer策略网络采用标准的encoder-decoder结构，encoder处理点云序列，decoder输出动作序列。损失函数包括行为克隆损失和奖励最大化损失，用于训练策略网络。

🖼️ 关键图片

📊 实验亮点

Point Bridge在零样本Sim2Real迁移中，相比现有方法取得了高达44%的性能提升。在少量真实数据协同训练下，性能提升高达66%。实验结果表明，Point Bridge在单任务和多任务设置中均表现出色，验证了其有效性和泛化能力。

🎯 应用场景

Point Bridge可应用于各种机器人操作任务，如物体抓取、放置、组装等。它降低了机器人训练对真实数据的依赖，加速了机器人技术的普及。该方法还可扩展到其他领域，如自动驾驶、增强现实等，实现跨域知识迁移。

📄 摘要（原文）

Robot foundation models are beginning to deliver on the promise of generalist robotic agents, yet progress remains constrained by the scarcity of large-scale real-world manipulation datasets. Simulation and synthetic data generation offer a scalable alternative, but their usefulness is limited by the visual domain gap between simulation and reality. In this work, we present Point Bridge, a framework that leverages unified, domain-agnostic point-based representations to unlock synthetic datasets for zero-shot sim-to-real policy transfer, without explicit visual or object-level alignment. Point Bridge combines automated point-based representation extraction via Vision-Language Models (VLMs), transformer-based policy learning, and efficient inference-time pipelines to train capable real-world manipulation agents using only synthetic data. With additional co-training on small sets of real demonstrations, Point Bridge further improves performance, substantially outperforming prior vision-based sim-and-real co-training methods. It achieves up to 44% gains in zero-shot sim-to-real transfer and up to 66% with limited real data across both single-task and multitask settings. Videos of the robot are best viewed at: https://pointbridge3d.github.io/

Point Bridge: 3D Representations for Cross Domain Policy Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理