Grounding by Remembering: Cross-Scene and In-Scene Memory for 3D Functional Affordances
作者: Qirui Wang, Jingyi He, Yining Pan, Xulei Yang, Shijie Li
分类: cs.CV
发布日期: 2026-05-12
💡 一句话要点
AFFORDMEM:利用跨场景与场景内记忆实现3D功能可供性定位
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 功能可供性 视觉-语言模型 3D场景理解 记忆网络 机器人操作
📋 核心要点
- 现有方法难以精确定位3D场景中物体的功能可供性区域,尤其是在视觉模糊或重复出现的情况下。
- AFFORDMEM通过跨场景和场景内记忆,引导视觉-语言模型关注细粒度的可操作区域,无需模型微调。
- 实验表明,AFFORDMEM在SceneFun3D数据集上显著提升了功能可供性定位的AP50指标,优于现有免训练方法。
📝 摘要(中文)
功能可供性定位不仅需要识别物体,还需要定位支持交互的特定区域,例如拉动的把手或按压的按钮。由于可操作区域通常很小、视觉上模糊,并且在场景中的多个同类别实例中重复出现,这对于免训练的视觉-语言管道来说非常困难。我们提出了AFFORDMEM,一个通过记住两个层级的几何信息来定位3D功能可供性的框架。第一是跨场景可供性记忆:智能体维护一个类别级别的RGB图像记忆库,其中可供性区域被渲染为覆盖层,并在查询时回忆信息量最大的示例,以引导冻结的VLM关注文本提示始终遗漏的小型可操作子区域。第二是场景内空间记忆:当智能体处理场景时,它将候选实例及其3D空间关系组织成结构化的场景图,使语言模型能够解析对远处或当前未观察到的候选对象的引用,例如“从顶部数第二个把手”。AFFORDMEM不需要模型微调,也不需要目标场景注释,而是使用从源场景构建的可重用记忆库。在SceneFun3D上,我们的方法在Split 0上比之前的免训练SOTA提高了3.23 AP50,在Split 1上提高了3.7。消融研究支持互补优势:跨场景可供性记忆提高了细粒度定位,而场景内空间记忆在空间限定查询上提供了更大的增益。
🔬 方法详解
问题定义:论文旨在解决3D场景中功能可供性区域的精确定位问题。现有方法,特别是免训练的视觉-语言模型,在处理视觉模糊、尺寸小且重复出现的可操作区域时表现不佳,导致定位精度不足。这些方法通常依赖于文本提示,但文本提示难以捕捉细粒度的几何信息。
核心思路:AFFORDMEM的核心思路是引入记忆机制,分为跨场景可供性记忆和场景内空间记忆。跨场景记忆通过检索相似场景的先验知识来指导模型定位;场景内记忆则通过构建场景图来理解物体间的空间关系,从而解决空间限定查询。这种设计旨在弥补视觉-语言模型在细粒度几何信息理解上的不足。
技术框架:AFFORDMEM框架包含两个主要模块:跨场景可供性记忆模块和场景内空间记忆模块。首先,跨场景可供性记忆模块维护一个包含RGB图像和可供性区域覆盖的记忆库。在查询时,该模块检索最相关的记忆样本,并将其作为视觉-语言模型的额外输入,以引导模型关注可操作区域。其次,场景内空间记忆模块构建场景图,将场景中的物体及其空间关系编码为图结构。该模块允许模型根据空间关系(例如“顶部”、“第二个”)来解析查询。最终,视觉-语言模型结合来自两个记忆模块的信息来预测可供性区域。
关键创新:AFFORDMEM的关键创新在于将跨场景和场景内记忆融入到功能可供性定位任务中,并且无需对视觉-语言模型进行微调。通过记忆机制,模型能够利用先验知识和场景上下文信息,从而更准确地定位可操作区域。与现有方法相比,AFFORDMEM不需要目标场景的标注,而是使用从源场景构建的可重用记忆库,降低了数据标注成本。
关键设计:跨场景记忆模块的关键设计在于如何选择最相关的记忆样本。论文采用了一种基于视觉相似度的检索方法,选择与当前场景最相似的记忆样本。场景内空间记忆模块的关键设计在于如何构建场景图。论文使用3D bounding box的中心点作为节点,并根据物体间的空间关系(例如距离、方位)来构建边。此外,论文还设计了一种特殊的查询解析机制,用于解析包含空间限定词的查询。
🖼️ 关键图片
📊 实验亮点
AFFORDMEM在SceneFun3D数据集上取得了显著的性能提升。在Split 0上,AP50指标比之前的免训练SOTA提高了3.23,在Split 1上提高了3.7。消融实验表明,跨场景可供性记忆和场景内空间记忆具有互补优势,前者提高了细粒度定位的精度,后者在空间限定查询上提供了更大的增益。这些结果验证了AFFORDMEM框架的有效性。
🎯 应用场景
该研究成果可应用于机器人操作、虚拟现实、人机交互等领域。例如,机器人可以利用该技术更准确地识别并操作各种物体,从而实现更智能的自动化任务。在虚拟现实中,用户可以通过自然语言指令与虚拟环境中的物体进行交互,提升用户体验。此外,该技术还可以用于辅助设计,帮助设计师更好地理解产品的功能可供性。
📄 摘要(原文)
Functional affordance grounding requires more than recognizing an object: an agent must localize the specific region that supports an interaction, such as the handle to pull or the button to press. This is difficult for training-free vision-language pipelines because actionable regions are often small, visually ambiguous, and repeated across multiple same-category instances in a scene. We propose AFFORDMEM, a framework that grounds 3D functional affordances by remembering geometry at two levels. The first is cross-scene affordance memory: the agent maintains a category-level memory bank of RGB images with affordance regions rendered as overlays, and recalls the most informative examples at query time to guide a frozen VLM toward small operable subregions that text-only prompting consistently misses. The second is in-scene spatial memory: as the agent processes the scene, it organizes candidate instances and their 3D spatial relations into a structured scene graph, enabling the language model to resolve references over distant or currently unobserved candidates such as "the second handle from the top." AFFORDMEM requires no model fine-tuning and no target-scene annotation, using a reusable memory bank built from source scenes. On SceneFun3D, our method improves AP50 over the prior training-free state of the art by 3.23 on Split 0 and 3.7 on Split 1. Ablation studies support complementary benefits: cross-scene affordance memory improves fine-grained localization, while in-scene spatial memory provides the larger gain on spatially qualified queries. The project homepage is available at the project page.