VolumeDP: Modeling Volumetric Representation for Manipulation Policy Learning

作者: Tianxing Zhou, Feiyang Xue, Zhangchen Ye, Tianyuan Yuan, Hang Zhao, Tao Jiang

分类: cs.RO

发布日期: 2026-03-18

💡 一句话要点

VolumeDP：通过建模体积表示提升操作策略学习性能

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 模仿学习 体积表示 空间推理 深度学习

📋 核心要点

现有视觉模仿学习方法中2D-3D不匹配问题阻碍了空间推理，降低了机器人操作的鲁棒性。
VolumeDP通过将图像特征提升为3D体积表示，并选择任务相关的体素来恢复空间对齐，进行更有效的空间推理。
VolumeDP在多个基准测试中显著优于现有方法，并在真实世界实验中表现出更强的泛化能力。

📝 摘要（中文）

模仿学习是机器人操作的一种重要范式。然而，现有的视觉模仿方法直接将2D图像观测映射到3D动作输出，造成2D-3D不匹配，阻碍了空间推理并降低了鲁棒性。我们提出了VolumeDP，一种通过显式地在3D空间中推理来恢复空间对齐的策略架构。VolumeDP首先通过交叉注意力将图像特征提升为体积表示。然后，它使用可学习模块选择任务相关的体素，并将它们转换为一组紧凑的空间tokens，从而显著减少计算量，同时保留对动作至关重要的几何信息。最后，一个多token解码器以整个token集为条件来预测动作，从而避免了将多个空间tokens折叠成单个描述符的损失性聚合。在LIBERO模拟基准测试中，VolumeDP实现了88.8%的最先进平均成功率，比最强的基线提高了14.8%。它还在ManiSkill和LIBERO-Plus基准测试中实现了相对于先前方法的大幅性能提升。真实世界的实验进一步证明了更高的成功率和对新空间布局、相机视角和环境背景的鲁棒泛化能力。代码将会开源。

🔬 方法详解

问题定义：现有基于视觉的机器人操作模仿学习方法，直接将2D图像信息映射到3D动作空间，忽略了2D图像和3D空间之间的内在差异，导致空间信息损失，影响了策略学习的效果和鲁棒性。这种2D-3D的不匹配是现有方法的一个主要痛点。

核心思路：VolumeDP的核心思路是将2D图像特征提升到3D体积空间，从而在3D空间中进行显式的空间推理。通过在3D空间中建模，可以更好地捕捉物体的几何结构和空间关系，从而提高策略学习的性能和泛化能力。这种设计避免了直接从2D图像预测3D动作带来的信息损失。

技术框架：VolumeDP的整体架构包含三个主要模块：1) 体积表示构建：通过交叉注意力机制将2D图像特征提升到3D体积空间，生成体积表示。2) 任务相关体素选择：使用可学习模块从体积表示中选择与任务相关的体素，并将它们转换为一组紧凑的空间tokens。3) 多token解码器：以整个token集为条件，预测机器人的动作。

关键创新：VolumeDP的关键创新在于显式地建模3D体积表示，并在其上进行空间推理。与直接从2D图像预测3D动作的方法不同，VolumeDP通过将图像特征提升到3D空间，保留了更多的空间信息，从而提高了策略学习的性能。此外，VolumeDP还引入了可学习的体素选择模块和多token解码器，进一步提高了模型的效率和表达能力。

关键设计：VolumeDP使用交叉注意力机制将2D图像特征与3D体素进行关联，从而实现图像特征到体积表示的提升。体素选择模块采用Gumbel-Softmax技巧进行可微分的选择。多token解码器使用Transformer架构，以整个token集为条件预测动作，避免了信息瓶颈。损失函数包括模仿学习损失和正则化项，用于约束体素选择模块。

🖼️ 关键图片

📊 实验亮点

VolumeDP在LIBERO模拟基准测试中取得了88.8%的平均成功率，比最强的基线提高了14.8%。在ManiSkill和LIBERO-Plus基准测试中，VolumeDP也显著优于现有方法。真实世界的实验表明，VolumeDP具有更高的成功率和对新空间布局、相机视角和环境背景的鲁棒泛化能力。这些结果表明VolumeDP在机器人操作策略学习方面具有显著的优势。

🎯 应用场景

VolumeDP在机器人操作领域具有广泛的应用前景，例如物体抓取、装配、导航等。该方法可以应用于工业自动化、家庭服务机器人、医疗机器人等多个领域，提高机器人的智能化水平和操作效率。未来，VolumeDP可以与其他技术相结合，例如强化学习、主动学习等，进一步提升机器人的学习能力和适应性。

📄 摘要（原文）

Imitation learning is a prominent paradigm for robotic manipulation. However, existing visual imitation methods map 2D image observations directly to 3D action outputs, imposing a 2D-3D mismatch that hinders spatial reasoning and degrades robustness. We present VolumeDP, a policy architecture that restores spatial alignment by explicitly reasoning in 3D. VolumeDP first lifts image features into a Volumetric Representation via cross-attention. It then selects task-relevant voxels with a learnable module and converts them into a compact set of spatial tokens, markedly reducing computation while preserving action-critical geometry. Finally, a multi-token decoder conditions on the entire token set to predict actions, thereby avoiding lossy aggregation that collapses multiple spatial tokens into a single descriptor. VolumeDP achieves a state-of-the-art average success rate of 88.8% on the LIBERO simulation benchmark, outperforming the strongest baseline by a substantial 14.8% improvement. It also delivers large performance gains over prior methods on the ManiSkill and LIBERO-Plus benchmarks. Real-world experiments further demonstrate higher success rates and robust generalization to novel spatial layouts, camera viewpoints, and environment backgrounds. Code will be released.

VolumeDP: Modeling Volumetric Representation for Manipulation Policy Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理