ReMAP-DP: Reprojected Multi-view Aligned PointMaps for Diffusion Policy

作者: Xinzhang Yang, Renjun Wu, Jinyan Liu, Xuesong Li

分类: cs.RO

发布日期: 2026-03-16

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

ReMAP-DP：利用重投影多视角对齐点云图的扩散策略，提升机器人操作精度

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 扩散策略 多视角学习 点云处理 几何推理

📋 核心要点

现有基于2D视觉的机器人策略缺乏显式的3D空间感知，难以胜任高精度操作任务。
ReMAP-DP通过重投影视图与点云图对齐，利用双流扩散策略融合语义特征和几何描述符，实现精确对齐。
实验表明，ReMAP-DP在模拟和真实环境中均优于现有方法，尤其在高精度操作任务中提升显著。

📝 摘要（中文）

本文提出了一种名为ReMAP-DP的新框架，它结合了标准化的透视重投影和结构感知的双流扩散策略，旨在提升通用机器人策略在高精度任务中的性能。现有的基于2D视觉表示的机器人策略擅长语义推理，但缺乏执行高精度任务所需的显式3D空间感知能力。现有的3D集成方法难以弥合这一差距，因为稀疏点云的结构不规则以及多视角正交渲染引入了几何失真。ReMAP-DP通过将重投影视图与像素对齐的点云图相结合，利用可学习的模态嵌入来融合冻结的语义特征和显式的几何描述符，从而确保精确的隐式patch级别对齐。在模拟和真实环境中的大量实验表明，ReMAP-DP在各种操作任务中表现出色。在RoboTwin 2.0上，它达到了59.3%的平均成功率，比DP3基线提高了+6.6%。在ManiSkill 3上，我们的方法在几何上具有挑战性的Stack Cube任务上比DP3提高了28%。此外，ReMAP-DP表现出卓越的真实世界鲁棒性，仅通过少量演示即可执行高精度和动态操作。

🔬 方法详解

问题定义：现有基于2D视觉的机器人策略在语义理解方面表现出色，但在需要精确3D空间信息的任务中存在局限性。直接使用3D点云进行策略学习面临结构不规则和多视角几何失真的问题，导致难以有效融合语义信息和几何信息。

核心思路：ReMAP-DP的核心在于将多视角图像重投影到统一的视角，并与像素对齐的点云图相结合，从而建立图像语义信息和3D几何信息的精确对应关系。通过这种方式，模型可以同时利用图像的语义理解能力和点云的精确空间信息，从而提升机器人操作的精度。

技术框架：ReMAP-DP采用双流架构。一路是基于图像的语义流，利用预训练的视觉模型提取图像特征；另一路是基于点云的几何流，利用点云图提取几何特征。这两路特征通过可学习的模态嵌入进行融合，并输入到扩散策略网络中，最终生成机器人的动作。整体流程包括：多视角图像获取、点云重建、图像重投影、特征提取、特征融合、扩散策略生成动作。

关键创新：ReMAP-DP的关键创新在于提出了重投影多视角对齐点云图（Reprojected Multi-view Aligned PointMaps）的概念，以及相应的双流扩散策略架构。通过重投影，解决了多视角图像的几何失真问题；通过点云图，提供了精确的3D空间信息；通过双流架构，实现了语义信息和几何信息的有效融合。

关键设计：ReMAP-DP的关键设计包括：1) 使用透视投影将多视角图像重投影到统一视角；2) 使用PointMap表示点云，并与重投影图像进行像素对齐；3) 设计可学习的模态嵌入，用于融合图像语义特征和点云几何特征；4) 使用扩散模型作为策略网络，生成连续的机器人动作。

🖼️ 关键图片

📊 实验亮点

ReMAP-DP在RoboTwin 2.0上取得了59.3%的平均成功率，相比DP3基线提升了6.6%。在ManiSkill 3的Stack Cube任务上，ReMAP-DP相比DP3提升了28%。此外，ReMAP-DP在真实环境中表现出卓越的鲁棒性，仅需少量演示数据即可完成高精度和动态操作任务，体现了其强大的泛化能力和数据效率。

🎯 应用场景

ReMAP-DP具有广泛的应用前景，可应用于各种需要高精度操作的机器人任务，例如：工业装配、医疗手术、家庭服务等。该方法能够提升机器人在复杂环境中的操作能力，使其能够更安全、更高效地完成任务。未来，ReMAP-DP有望成为通用机器人操作策略的重要组成部分，推动机器人技术的发展。

📄 摘要（原文）

Generalist robot policies built upon 2D visual representations excel at semantic reasoning but inherently lack the explicit 3D spatial awareness required for high-precision tasks. Existing 3D integration methods struggle to bridge this gap due to the structural irregularity of sparse point clouds and the geometric distortion introduced by multi-view orthographic rendering. To overcome these barriers, we present ReMAP-DP, a novel framework synergizing standardized perspective reprojection with a structure-aware dual-stream diffusion policy. By coupling the re-projected views with pixel-aligned PointMaps, our dual-stream architecture leverages learnable modality embeddings to fuse frozen semantic features and explicit geometric descriptors, ensuring precise implicit patch-level alignment. Extensive experiments across simulation and real-world environments demonstrate ReMAP-DP's superior performance in diverse manipulation tasks. On RoboTwin 2.0, it attains a 59.3% average success rate, outperforming the DP3 baseline by +6.6%. On ManiSkill 3, our method yields a 28% improvement over DP3 on the geometrically challenging Stack Cube task. Furthermore, ReMAP-DP exhibits remarkable real-world robustness, executing high-precision and dynamic manipulations with superior data efficiency from only a handful of demonstrations. Project page is available at: https://icr-lab.github.io/ReMAP-DP/

ReMAP-DP: Reprojected Multi-view Aligned PointMaps for Diffusion Policy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理