CRAFT: A Neuro-Symbolic Framework for Visual Functional Affordance Grounding

📄 arXiv: 2507.14426v1 📥 PDF

作者: Zhou Chen, Joe Lin, Sathyanarayanan N. Aakur

分类: cs.CV

发布日期: 2025-07-19

备注: Accepted to NeSy 2025


💡 一句话要点

CRAFT:用于视觉功能可供性接地的神经符号框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 可供性接地 神经符号框架 常识推理 视觉理解 场景理解

📋 核心要点

  1. 现有方法在可供性接地方面缺乏可解释性,难以将常识知识与视觉信息有效结合。
  2. CRAFT通过神经符号框架,融合常识知识、语言模型和视觉证据,实现可解释的可供性接地。
  3. 实验表明,CRAFT在多对象场景中提高了准确性,并提供了更强的可解释性。

📝 摘要(中文)

本文提出CRAFT,一个用于可解释的可供性接地的神经符号框架,旨在识别场景中能够实现给定动作(例如,“切割”)的物体。CRAFT集成了来自ConceptNet的结构化常识先验知识、语言模型以及来自CLIP的视觉证据,并使用基于能量的推理循环来迭代地优化预测。这个过程产生透明的、目标驱动的决策,从而连接符号和感知结构。在多对象、无标签设置下的实验表明,CRAFT提高了准确性,同时增强了可解释性,为实现鲁棒且可信的场景理解迈出了一步。

🔬 方法详解

问题定义:论文旨在解决视觉功能可供性接地问题,即识别场景中哪些物体能够支持特定的动作。现有方法通常缺乏可解释性,难以有效利用常识知识,并且在处理复杂场景时性能受限。

核心思路:CRAFT的核心思路是将神经方法和符号推理相结合,利用常识知识指导视觉信息的理解,并通过迭代推理来优化可供性接地的预测。这种结合使得模型不仅能够识别物体,还能理解它们与动作之间的关系。

技术框架:CRAFT框架包含以下主要模块:1) 视觉感知模块:使用CLIP提取场景中物体的视觉特征。2) 知识表示模块:利用ConceptNet存储常识知识,例如“刀可以用来切割”。3) 语言模型模块:使用语言模型来理解动作的语义信息。4) 能量推理模块:基于能量函数,将视觉特征、常识知识和语言信息进行融合,并通过迭代优化来预测可供性接地。

关键创新:CRAFT的关键创新在于其神经符号融合框架,它将神经网络的感知能力与符号推理的逻辑性相结合,实现了可解释的可供性接地。与传统的纯视觉方法相比,CRAFT能够利用常识知识来指导视觉信息的理解,从而提高准确性和鲁棒性。

关键设计:CRAFT使用基于能量的推理循环,通过最小化能量函数来优化可供性接地的预测。能量函数的设计考虑了视觉特征、常识知识和语言信息之间的关系。此外,CRAFT还采用了迭代推理机制,通过多次迭代来逐步优化预测结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CRAFT在多对象、无标签设置下显著提高了可供性接地的准确性,并提供了更强的可解释性。与基线方法相比,CRAFT能够更准确地识别场景中能够支持特定动作的物体,并且能够提供关于其决策过程的解释。

🎯 应用场景

CRAFT可应用于机器人导航、人机交互、智能监控等领域。例如,在机器人导航中,CRAFT可以帮助机器人理解场景中的物体及其功能,从而更好地规划路径和执行任务。在人机交互中,CRAFT可以帮助机器理解用户的意图,并提供更自然、更智能的交互体验。在智能监控中,CRAFT可以帮助监控系统识别异常行为,并及时发出警报。

📄 摘要(原文)

We introduce CRAFT, a neuro-symbolic framework for interpretable affordance grounding, which identifies the objects in a scene that enable a given action (e.g., "cut"). CRAFT integrates structured commonsense priors from ConceptNet and language models with visual evidence from CLIP, using an energy-based reasoning loop to refine predictions iteratively. This process yields transparent, goal-driven decisions to ground symbolic and perceptual structures. Experiments in multi-object, label-free settings demonstrate that CRAFT enhances accuracy while improving interpretability, providing a step toward robust and trustworthy scene understanding.