ReMAP-DP: Reprojected Multi-view Aligned PointMaps for Diffusion Policy

📄 arXiv: 2603.14977v1 📥 PDF

作者: Xinzhang Yang, Renjun Wu, Jinyan Liu, Xuesong Li

分类: cs.RO

发布日期: 2026-03-16

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

ReMAP-DP:利用重投影多视角对齐点云图的扩散策略,提升机器人操作精度

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 扩散策略 多视角学习 点云处理 几何推理

📋 核心要点

  1. 现有基于2D视觉的机器人策略缺乏显式的3D空间感知,难以胜任高精度操作任务。
  2. ReMAP-DP通过重投影视图与点云图对齐,利用双流扩散策略融合语义特征和几何描述符,实现精确对齐。
  3. 实验表明,ReMAP-DP在模拟和真实环境中均优于现有方法,尤其在高精度操作任务中提升显著。

📝 摘要(中文)

本文提出了一种名为ReMAP-DP的新框架,它结合了标准化的透视重投影和结构感知的双流扩散策略,旨在提升通用机器人策略在高精度任务中的性能。现有的基于2D视觉表示的机器人策略擅长语义推理,但缺乏执行高精度任务所需的显式3D空间感知能力。现有的3D集成方法难以弥合这一差距,因为稀疏点云的结构不规则以及多视角正交渲染引入了几何失真。ReMAP-DP通过将重投影视图与像素对齐的点云图相结合,利用可学习的模态嵌入来融合冻结的语义特征和显式的几何描述符,从而确保精确的隐式patch级别对齐。在模拟和真实环境中的大量实验表明,ReMAP-DP在各种操作任务中表现出色。在RoboTwin 2.0上,它达到了59.3%的平均成功率,比DP3基线提高了+6.6%。在ManiSkill 3上,我们的方法在几何上具有挑战性的Stack Cube任务上比DP3提高了28%。此外,ReMAP-DP表现出卓越的真实世界鲁棒性,仅通过少量演示即可执行高精度和动态操作。

🔬 方法详解

问题定义:现有基于2D视觉的机器人策略在语义理解方面表现出色,但在需要精确3D空间信息的任务中存在局限性。直接使用3D点云进行策略学习面临结构不规则和多视角几何失真的问题,导致难以有效融合语义信息和几何信息。

核心思路:ReMAP-DP的核心在于将多视角图像重投影到统一的视角,并与像素对齐的点云图相结合,从而建立图像语义信息和3D几何信息的精确对应关系。通过这种方式,模型可以同时利用图像的语义理解能力和点云的精确空间信息,从而提升机器人操作的精度。

技术框架:ReMAP-DP采用双流架构。一路是基于图像的语义流,利用预训练的视觉模型提取图像特征;另一路是基于点云的几何流,利用点云图提取几何特征。这两路特征通过可学习的模态嵌入进行融合,并输入到扩散策略网络中,最终生成机器人的动作。整体流程包括:多视角图像获取、点云重建、图像重投影、特征提取、特征融合、扩散策略生成动作。

关键创新:ReMAP-DP的关键创新在于提出了重投影多视角对齐点云图(Reprojected Multi-view Aligned PointMaps)的概念,以及相应的双流扩散策略架构。通过重投影,解决了多视角图像的几何失真问题;通过点云图,提供了精确的3D空间信息;通过双流架构,实现了语义信息和几何信息的有效融合。

关键设计:ReMAP-DP的关键设计包括:1) 使用透视投影将多视角图像重投影到统一视角;2) 使用PointMap表示点云,并与重投影图像进行像素对齐;3) 设计可学习的模态嵌入,用于融合图像语义特征和点云几何特征;4) 使用扩散模型作为策略网络,生成连续的机器人动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReMAP-DP在RoboTwin 2.0上取得了59.3%的平均成功率,相比DP3基线提升了6.6%。在ManiSkill 3的Stack Cube任务上,ReMAP-DP相比DP3提升了28%。此外,ReMAP-DP在真实环境中表现出卓越的鲁棒性,仅需少量演示数据即可完成高精度和动态操作任务,体现了其强大的泛化能力和数据效率。

🎯 应用场景

ReMAP-DP具有广泛的应用前景,可应用于各种需要高精度操作的机器人任务,例如:工业装配、医疗手术、家庭服务等。该方法能够提升机器人在复杂环境中的操作能力,使其能够更安全、更高效地完成任务。未来,ReMAP-DP有望成为通用机器人操作策略的重要组成部分,推动机器人技术的发展。

📄 摘要(原文)

Generalist robot policies built upon 2D visual representations excel at semantic reasoning but inherently lack the explicit 3D spatial awareness required for high-precision tasks. Existing 3D integration methods struggle to bridge this gap due to the structural irregularity of sparse point clouds and the geometric distortion introduced by multi-view orthographic rendering. To overcome these barriers, we present ReMAP-DP, a novel framework synergizing standardized perspective reprojection with a structure-aware dual-stream diffusion policy. By coupling the re-projected views with pixel-aligned PointMaps, our dual-stream architecture leverages learnable modality embeddings to fuse frozen semantic features and explicit geometric descriptors, ensuring precise implicit patch-level alignment. Extensive experiments across simulation and real-world environments demonstrate ReMAP-DP's superior performance in diverse manipulation tasks. On RoboTwin 2.0, it attains a 59.3% average success rate, outperforming the DP3 baseline by +6.6%. On ManiSkill 3, our method yields a 28% improvement over DP3 on the geometrically challenging Stack Cube task. Furthermore, ReMAP-DP exhibits remarkable real-world robustness, executing high-precision and dynamic manipulations with superior data efficiency from only a handful of demonstrations. Project page is available at: https://icr-lab.github.io/ReMAP-DP/