ReMAP-DP: Reprojected Multi-view Aligned PointMaps for Diffusion Policy
作者: Xinzhang Yang, Renjun Wu, Jinyan Liu, Xuesong Li
分类: cs.RO
发布日期: 2026-03-16
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
ReMAP-DP:利用重投影多视角对齐点云图的扩散策略,提升机器人操作精度
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人操作 扩散策略 多视角学习 点云处理 几何推理
📋 核心要点
- 现有基于2D视觉的机器人策略缺乏显式的3D空间感知,难以胜任高精度操作任务。
- ReMAP-DP通过重投影视图与点云图对齐,利用双流扩散策略融合语义特征和几何描述符,实现精确对齐。
- 实验表明,ReMAP-DP在模拟和真实环境中均优于现有方法,尤其在高精度操作任务中提升显著。
📝 摘要(中文)
本文提出了一种名为ReMAP-DP的新框架,它结合了标准化的透视重投影和结构感知的双流扩散策略,旨在提升通用机器人策略在高精度任务中的性能。现有的基于2D视觉表示的机器人策略擅长语义推理,但缺乏执行高精度任务所需的显式3D空间感知能力。现有的3D集成方法难以弥合这一差距,因为稀疏点云的结构不规则以及多视角正交渲染引入了几何失真。ReMAP-DP通过将重投影视图与像素对齐的点云图相结合,利用可学习的模态嵌入来融合冻结的语义特征和显式的几何描述符,从而确保精确的隐式patch级别对齐。在模拟和真实环境中的大量实验表明,ReMAP-DP在各种操作任务中表现出色。在RoboTwin 2.0上,它达到了59.3%的平均成功率,比DP3基线提高了+6.6%。在ManiSkill 3上,我们的方法在几何上具有挑战性的Stack Cube任务上比DP3提高了28%。此外,ReMAP-DP表现出卓越的真实世界鲁棒性,仅通过少量演示即可执行高精度和动态操作。
🔬 方法详解
问题定义:现有基于2D视觉的机器人策略在语义理解方面表现出色,但在需要精确3D空间信息的任务中存在局限性。直接使用3D点云进行策略学习面临结构不规则和多视角几何失真的问题,导致难以有效融合语义信息和几何信息。
核心思路:ReMAP-DP的核心在于将多视角图像重投影到统一的视角,并与像素对齐的点云图相结合,从而建立图像语义信息和3D几何信息的精确对应关系。通过这种方式,模型可以同时利用图像的语义理解能力和点云的精确空间信息,从而提升机器人操作的精度。
技术框架:ReMAP-DP采用双流架构。一路是基于图像的语义流,利用预训练的视觉模型提取图像特征;另一路是基于点云的几何流,利用点云图提取几何特征。这两路特征通过可学习的模态嵌入进行融合,并输入到扩散策略网络中,最终生成机器人的动作。整体流程包括:多视角图像获取、点云重建、图像重投影、特征提取、特征融合、扩散策略生成动作。
关键创新:ReMAP-DP的关键创新在于提出了重投影多视角对齐点云图(Reprojected Multi-view Aligned PointMaps)的概念,以及相应的双流扩散策略架构。通过重投影,解决了多视角图像的几何失真问题;通过点云图,提供了精确的3D空间信息;通过双流架构,实现了语义信息和几何信息的有效融合。
关键设计:ReMAP-DP的关键设计包括:1) 使用透视投影将多视角图像重投影到统一视角;2) 使用PointMap表示点云,并与重投影图像进行像素对齐;3) 设计可学习的模态嵌入,用于融合图像语义特征和点云几何特征;4) 使用扩散模型作为策略网络,生成连续的机器人动作。
🖼️ 关键图片
📊 实验亮点
ReMAP-DP在RoboTwin 2.0上取得了59.3%的平均成功率,相比DP3基线提升了6.6%。在ManiSkill 3的Stack Cube任务上,ReMAP-DP相比DP3提升了28%。此外,ReMAP-DP在真实环境中表现出卓越的鲁棒性,仅需少量演示数据即可完成高精度和动态操作任务,体现了其强大的泛化能力和数据效率。
🎯 应用场景
ReMAP-DP具有广泛的应用前景,可应用于各种需要高精度操作的机器人任务,例如:工业装配、医疗手术、家庭服务等。该方法能够提升机器人在复杂环境中的操作能力,使其能够更安全、更高效地完成任务。未来,ReMAP-DP有望成为通用机器人操作策略的重要组成部分,推动机器人技术的发展。
📄 摘要(原文)
Generalist robot policies built upon 2D visual representations excel at semantic reasoning but inherently lack the explicit 3D spatial awareness required for high-precision tasks. Existing 3D integration methods struggle to bridge this gap due to the structural irregularity of sparse point clouds and the geometric distortion introduced by multi-view orthographic rendering. To overcome these barriers, we present ReMAP-DP, a novel framework synergizing standardized perspective reprojection with a structure-aware dual-stream diffusion policy. By coupling the re-projected views with pixel-aligned PointMaps, our dual-stream architecture leverages learnable modality embeddings to fuse frozen semantic features and explicit geometric descriptors, ensuring precise implicit patch-level alignment. Extensive experiments across simulation and real-world environments demonstrate ReMAP-DP's superior performance in diverse manipulation tasks. On RoboTwin 2.0, it attains a 59.3% average success rate, outperforming the DP3 baseline by +6.6%. On ManiSkill 3, our method yields a 28% improvement over DP3 on the geometrically challenging Stack Cube task. Furthermore, ReMAP-DP exhibits remarkable real-world robustness, executing high-precision and dynamic manipulations with superior data efficiency from only a handful of demonstrations. Project page is available at: https://icr-lab.github.io/ReMAP-DP/