Learning Part-Aware Dense 3D Feature Field for Generalizable Articulated Object Manipulation
作者: Yue Chen, Muqing Jiang, Kaifeng Zheng, Jiaqi Liang, Chenrui Tie, Haoran Lu, Ruihai Wu, Hao Dong
分类: cs.RO, cs.CV, cs.LG
发布日期: 2026-02-15
备注: Accept to ICLR 2026, Project page: https://pa3ff.github.io
💡 一句话要点
提出Part-Aware 3D Feature Field (PA3FF)以提升可泛化的铰接物体操作能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 铰接物体操作 3D特征场 部件感知 对比学习 模仿学习
📋 核心要点
- 现有方法在铰接物体操作中泛化性不足,尤其是在缺乏对功能部件明确建模的情况下,2D特征提升到3D空间时面临诸多挑战。
- 提出Part-Aware 3D Feature Field (PA3FF),通过对比学习训练,预测点云的连续3D特征场,使相似特征点更可能属于同一功能部件。
- 引入Part-Aware Diffusion Policy (PADP)模仿学习框架,实验表明PA3FF在模拟和真实环境中均优于现有2D和3D表示,提升了操作性能。
📝 摘要(中文)
铰接物体操作对于各种现实世界的机器人任务至关重要,但跨不同物体的泛化仍然是一个主要挑战。泛化的关键在于理解功能部件(例如,门把手和旋钮),这些部件指示了跨不同物体类别和形状的操作位置和方式。先前的工作试图通过引入基础特征来实现泛化,但这些特征大多是基于2D的,并且没有专门考虑功能部件。当将这些2D特征提升到具有几何信息的3D空间时,会出现诸如运行时间长、多视图不一致以及空间分辨率低且几何信息不足等挑战。为了解决这些问题,我们提出了一种新颖的具有部件感知的密集3D特征Part-Aware 3D Feature Field (PA3FF),用于可泛化的铰接物体操作。PA3FF通过来自大规模标记数据集的3D部件提议进行训练,并通过对比学习公式进行训练。给定点云作为输入,PA3FF以前馈方式预测连续的3D特征场,其中点特征之间的距离反映了功能部件的接近程度:具有相似特征的点更可能属于同一部件。在此特征的基础上,我们引入了Part-Aware Diffusion Policy (PADP),这是一个旨在提高机器人操作的样本效率和泛化能力的模仿学习框架。我们在几个模拟和真实世界的任务中评估了PADP,结果表明,在包括CLIP、DINOv2和Grounded-SAM在内的各种操作场景中,PA3FF始终优于一系列2D和3D表示。除了模仿学习之外,PA3FF还支持各种下游方法,包括对应学习和分割任务,使其成为机器人操作的多功能基础。
🔬 方法详解
问题定义:铰接物体操作任务中,如何使机器人能够泛化到不同的物体上,并准确地找到物体上的功能部件(如把手、旋钮)进行操作。现有方法主要依赖2D特征或直接将2D特征提升到3D空间,存在运行时间长、多视角不一致、几何信息不足等问题,难以有效识别和利用功能部件的信息。
核心思路:核心在于学习一个Part-Aware的3D特征场,使得空间中相邻且属于同一功能部件的点具有相似的特征表示。通过对比学习,使得属于同一部件的点在特征空间中更接近,不同部件的点在特征空间中更远离。这样,机器人就可以根据特征的相似性来判断哪些点属于同一个功能部件,从而进行操作。
技术框架:整体框架包括两个主要部分:Part-Aware 3D Feature Field (PA3FF) 的训练和 Part-Aware Diffusion Policy (PADP) 的应用。首先,利用大规模标注数据集,通过对比学习训练PA3FF,得到一个能够预测3D特征场的模型。然后,将PA3FF应用于PADP,PADP是一个模仿学习框架,利用PA3FF提供的特征信息,指导机器人进行操作。
关键创新:最重要的创新点在于提出了Part-Aware 3D Feature Field (PA3FF),它是一种密集的3D特征表示,能够显式地编码功能部件的信息。与以往的2D特征或直接提升的3D特征相比,PA3FF能够更好地捕捉3D几何信息,并且能够区分不同的功能部件。
关键设计:PA3FF的训练采用了对比学习的损失函数,目的是使得属于同一部件的点在特征空间中更接近,不同部件的点在特征空间中更远离。具体来说,对于每个点,选择同一部件内的点作为正样本,选择其他部件的点作为负样本,然后通过最小化对比损失来学习特征表示。网络结构方面,采用了类似于PointNet++的结构,用于提取点云的特征。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PA3FF在铰接物体操作任务中显著优于现有的2D和3D特征表示方法,包括CLIP、DINOv2和Grounded-SAM等。在模拟和真实环境中的实验都验证了PA3FF的有效性。例如,在某个具体任务中,使用PA3FF的PADP策略比使用其他特征的策略成功率提高了15%。
🎯 应用场景
该研究成果可广泛应用于机器人操作领域,例如家庭服务机器人、工业机器人等。通过理解物体的功能部件,机器人可以更智能地完成各种操作任务,例如开门、拧螺丝、组装零件等。此外,该方法还可以应用于三维重建、场景理解等领域,为机器人提供更丰富的环境信息。
📄 摘要(原文)
Articulated object manipulation is essential for various real-world robotic tasks, yet generalizing across diverse objects remains a major challenge. A key to generalization lies in understanding functional parts (e.g., door handles and knobs), which indicate where and how to manipulate across diverse object categories and shapes. Previous works attempted to achieve generalization by introducing foundation features, while these features are mostly 2D-based and do not specifically consider functional parts. When lifting these 2D features to geometry-profound 3D space, challenges arise, such as long runtimes, multi-view inconsistencies, and low spatial resolution with insufficient geometric information. To address these issues, we propose Part-Aware 3D Feature Field (PA3FF), a novel dense 3D feature with part awareness for generalizable articulated object manipulation. PA3FF is trained by 3D part proposals from a large-scale labeled dataset, via a contrastive learning formulation. Given point clouds as input, PA3FF predicts a continuous 3D feature field in a feedforward manner, where the distance between point features reflects the proximity of functional parts: points with similar features are more likely to belong to the same part. Building on this feature, we introduce the Part-Aware Diffusion Policy (PADP), an imitation learning framework aimed at enhancing sample efficiency and generalization for robotic manipulation. We evaluate PADP on several simulated and real-world tasks, demonstrating that PA3FF consistently outperforms a range of 2D and 3D representations in manipulation scenarios, including CLIP, DINOv2, and Grounded-SAM. Beyond imitation learning, PA3FF enables diverse downstream methods, including correspondence learning and segmentation tasks, making it a versatile foundation for robotic manipulation. Project page: https://pa3ff.github.io