GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency

📄 arXiv: 2412.09511v1 📥 PDF

作者: Dongyue Lu, Lingdong Kong, Tianxin Huang, Gim Hee Lee

分类: cs.CV

发布日期: 2024-12-12

备注: 22 pages, 8 figures, 12 tables; Project Page at https://dylanorange.github.io/projects/geal


💡 一句话要点

GEAL:利用跨模态一致性提升3D可供性学习的泛化能力

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D可供性学习 跨模态学习 高斯溅射 2D-3D一致性 泛化能力 鲁棒性 数据增强 机器人操作

📋 核心要点

  1. 现有3D可供性学习方法因标注数据有限,且依赖于侧重几何编码的3D骨干网络,导致泛化性和鲁棒性不足。
  2. GEAL框架利用大规模预训练2D模型,通过跨模态一致性学习,提升3D可供性学习的泛化能力和鲁棒性。
  3. 实验表明,GEAL在公开数据集和新提出的数据损坏基准测试中,均优于现有方法,展现了其优越的性能。

📝 摘要(中文)

本文提出GEAL框架,旨在通过利用大规模预训练2D模型来增强3D可供性学习的泛化性和鲁棒性。该框架采用双分支架构,利用高斯溅射建立3D点云和2D表示之间的一致性映射,从而从稀疏点云生成逼真的2D渲染。粒度自适应融合模块和2D-3D一致性对齐模块进一步加强了跨模态对齐和知识迁移,使3D分支能够受益于2D模型的丰富语义和泛化能力。为了全面评估鲁棒性,我们引入了两个新的基于数据损坏的基准测试:PIAD-C和LASO-C。大量实验表明,GEAL在已见和新颖物体类别以及损坏数据上始终优于现有方法,证明了其在不同条件下鲁棒且适应性强的可供性预测能力。代码和损坏数据集已公开。

🔬 方法详解

问题定义:现有3D可供性学习方法在泛化性和鲁棒性方面存在不足。它们通常依赖于有限的标注数据,并且3D骨干网络侧重于几何编码,缺乏对真实世界噪声和数据损坏的鲁棒性。这限制了它们在实际机器人和人机交互应用中的性能。

核心思路:GEAL的核心思路是利用大规模预训练的2D模型来弥补3D数据的不足。通过建立3D点云和2D图像之间的一致性映射,将2D模型的丰富语义知识迁移到3D可供性学习中。这样可以提高模型对新物体的泛化能力,并增强其对噪声和数据损坏的鲁棒性。

技术框架:GEAL采用双分支架构,包括一个3D分支和一个2D分支。3D分支处理3D点云数据,2D分支处理由3D点云渲染生成的2D图像。高斯溅射用于从稀疏点云生成逼真的2D渲染。粒度自适应融合模块用于融合3D和2D特征。2D-3D一致性对齐模块用于对齐两个分支的特征表示。

关键创新:GEAL的关键创新在于利用跨模态一致性学习来提升3D可供性学习的泛化能力和鲁棒性。它通过建立3D点云和2D图像之间的一致性映射,将2D模型的知识迁移到3D模型中。此外,GEAL还提出了粒度自适应融合模块和2D-3D一致性对齐模块,进一步加强了跨模态对齐和知识迁移。

关键设计:GEAL的关键设计包括:1) 使用高斯溅射进行3D到2D的渲染,以生成逼真的2D图像;2) 粒度自适应融合模块,根据不同特征的重要性自适应地融合3D和2D特征;3) 2D-3D一致性对齐模块,通过对比学习等方法对齐两个分支的特征表示;4) 引入了PIAD-C和LASO-C两个新的数据损坏基准测试,用于全面评估模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GEAL在多个数据集上取得了显著的性能提升。在PIAD和LASO数据集上,GEAL在seen和novel类别上均优于现有方法。此外,GEAL在提出的PIAD-C和LASO-C数据损坏基准测试中也表现出强大的鲁棒性,证明了其在真实世界场景中的实用性。具体性能数据请参考论文原文。

🎯 应用场景

GEAL在机器人操作、人机交互等领域具有广泛的应用前景。它可以帮助机器人理解物体的可供性,从而更好地完成抓取、放置、组装等任务。在人机交互方面,GEAL可以用于增强虚拟现实和增强现实体验,例如,允许用户与虚拟物体进行更自然的交互。

📄 摘要(原文)

Identifying affordance regions on 3D objects from semantic cues is essential for robotics and human-machine interaction. However, existing 3D affordance learning methods struggle with generalization and robustness due to limited annotated data and a reliance on 3D backbones focused on geometric encoding, which often lack resilience to real-world noise and data corruption. We propose GEAL, a novel framework designed to enhance the generalization and robustness of 3D affordance learning by leveraging large-scale pre-trained 2D models. We employ a dual-branch architecture with Gaussian splatting to establish consistent mappings between 3D point clouds and 2D representations, enabling realistic 2D renderings from sparse point clouds. A granularity-adaptive fusion module and a 2D-3D consistency alignment module further strengthen cross-modal alignment and knowledge transfer, allowing the 3D branch to benefit from the rich semantics and generalization capacity of 2D models. To holistically assess the robustness, we introduce two new corruption-based benchmarks: PIAD-C and LASO-C. Extensive experiments on public datasets and our benchmarks show that GEAL consistently outperforms existing methods across seen and novel object categories, as well as corrupted data, demonstrating robust and adaptable affordance prediction under diverse conditions. Code and corruption datasets have been made publicly available.