Part-Aware Open-Vocabulary 3D Affordance Grounding via Prototypical Semantic and Geometric Alignment

📄 arXiv: 2603.17647v1 📥 PDF

作者: Dongqiang Gou, Xuming He

分类: cs.CV

发布日期: 2026-03-18


💡 一句话要点

提出原型语义与几何对齐方法,解决开放词汇3D可供性定位问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D可供性定位 开放词汇 跨模态学习 几何对齐 语义增强 大型语言模型 原型学习

📋 核心要点

  1. 现有3D可供性定位方法在开放词汇泛化、几何对齐精度和部件级语义一致性方面存在不足。
  2. 该方法通过两阶段框架,利用大型语言模型和几何原型聚合,增强语义和几何表示,实现更精确的定位。
  3. 实验结果表明,该方法在多个基准测试中优于现有方法,验证了其有效性。

📝 摘要(中文)

本文提出了一种新颖的两阶段跨模态框架,用于增强开放词汇3D可供性定位的语义和几何表示。该方法旨在解决现有方法在开放词汇泛化、精细几何对齐和部件级语义一致性方面面临的挑战。第一阶段,利用大型语言模型生成部件感知的指令,以恢复缺失的语义,从而连接语义相似的可供性。第二阶段,引入了可供性原型聚合(APA),用于捕获每个可供性的跨对象几何一致性,以及对象内关系建模(IORM),用于细化对象内的几何区分,以支持精确的语义对齐。通过在新引入的基准以及两个现有基准上的大量实验验证了该方法的有效性,结果表明,与现有方法相比,该方法表现出卓越的性能。

🔬 方法详解

问题定义:论文旨在解决语言驱动的3D可供性定位问题,即根据自然语言问题定位3D对象中功能相关的区域。现有方法虽然从基于标签的方法发展到基于语言的方法,但在开放词汇泛化能力、精细的几何对齐以及部件级别的语义一致性方面仍然存在局限性。这些局限性导致模型难以处理未见过的词汇和复杂场景,影响了定位的准确性和可靠性。

核心思路:论文的核心思路是通过增强语义和几何表示来提高3D可供性定位的性能。具体而言,利用大型语言模型来补充缺失的语义信息,并引入几何原型聚合和对象内关系建模来提高几何对齐的精度。通过语义和几何信息的互补,模型能够更好地理解语言描述并定位到正确的3D区域。

技术框架:该方法采用两阶段的跨模态框架。第一阶段是语义增强阶段,利用大型语言模型生成部件感知的指令,以恢复缺失的语义信息。第二阶段是几何对齐阶段,包括可供性原型聚合(APA)和对象内关系建模(IORM)。APA用于捕获跨对象的几何一致性,IORM用于细化对象内的几何区分。这两个阶段协同工作,实现精确的语义对齐。

关键创新:该方法的主要创新点在于:1) 利用大型语言模型进行部件感知的语义增强,提高了模型对开放词汇的泛化能力;2) 提出了可供性原型聚合(APA)和对象内关系建模(IORM),有效地提高了几何对齐的精度和鲁棒性。与现有方法相比,该方法能够更好地处理复杂场景和未见过的词汇,实现更精确的3D可供性定位。

关键设计:在语义增强阶段,使用了预训练的大型语言模型(具体模型未知)来生成部件感知的指令。在几何对齐阶段,APA通过计算每个可供性的几何原型,并将其与输入对象的几何特征进行匹配来实现跨对象的几何一致性。IORM通过构建对象内部部件之间的关系图,并利用图神经网络来细化几何特征,从而提高对象内的几何区分度。损失函数的设计细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在自建的新基准测试以及两个现有基准测试中进行了验证,实验结果表明,该方法在3D可供性定位任务中取得了显著的性能提升,优于现有的方法。具体的性能数据和提升幅度在论文中详细给出(具体数值未知)。

🎯 应用场景

该研究成果可应用于机器人导航、人机交互、虚拟现实等领域。例如,机器人可以根据用户的语言指令,准确地定位并操作3D环境中的物体;在虚拟现实中,用户可以通过自然语言与虚拟环境进行交互,实现更自然、更直观的体验。该技术还有助于提升智能家居设备的智能化水平,使其能够更好地理解用户的需求并提供个性化服务。

📄 摘要(原文)

Grounding natural language questions to functionally relevant regions in 3D objects -- termed language-driven 3D affordance grounding -- is essential for embodied intelligence and human-AI interaction. Existing methods, while progressing from label-based to language-driven approaches, still face challenges in open-vocabulary generalization, fine-grained geometric alignment, and part-level semantic consistency. To address these issues, we propose a novel two-stage cross-modal framework that enhances both semantic and geometric representations for open-vocabulary 3D affordance grounding. In the first stage, large language models generate part-aware instructions to recover missing semantics, enabling the model to link semantically similar affordances. In the second stage, we introduce two key components: Affordance Prototype Aggregation (APA), which captures cross-object geometric consistency for each affordance, and Intra-Object Relational Modeling (IORM), which refines geometric differentiation within objects to support precise semantic alignment. We validate the effectiveness of our method through extensive experiments on a newly introduced benchmark, as well as two existing benchmarks, demonstrating superior performance in comparison with existing methods.