CRAFT: A Neuro-Symbolic Framework for Visual Functional Affordance Grounding

作者: Zhou Chen, Joe Lin, Sathyanarayanan N. Aakur

分类: cs.CV

发布日期: 2025-07-19

备注: Accepted to NeSy 2025

💡 一句话要点

CRAFT：用于视觉功能可供性接地的神经符号框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 可供性接地 神经符号框架 常识推理 视觉理解 场景理解

📋 核心要点

现有方法在可供性接地方面缺乏可解释性，难以将常识知识与视觉信息有效结合。
CRAFT通过神经符号框架，融合常识知识、语言模型和视觉证据，实现可解释的可供性接地。
实验表明，CRAFT在多对象场景中提高了准确性，并提供了更强的可解释性。

📝 摘要（中文）

本文提出CRAFT，一个用于可解释的可供性接地的神经符号框架，旨在识别场景中能够实现给定动作（例如，“切割”）的物体。CRAFT集成了来自ConceptNet的结构化常识先验知识、语言模型以及来自CLIP的视觉证据，并使用基于能量的推理循环来迭代地优化预测。这个过程产生透明的、目标驱动的决策，从而连接符号和感知结构。在多对象、无标签设置下的实验表明，CRAFT提高了准确性，同时增强了可解释性，为实现鲁棒且可信的场景理解迈出了一步。

🔬 方法详解

问题定义：论文旨在解决视觉功能可供性接地问题，即识别场景中哪些物体能够支持特定的动作。现有方法通常缺乏可解释性，难以有效利用常识知识，并且在处理复杂场景时性能受限。

核心思路：CRAFT的核心思路是将神经方法和符号推理相结合，利用常识知识指导视觉信息的理解，并通过迭代推理来优化可供性接地的预测。这种结合使得模型不仅能够识别物体，还能理解它们与动作之间的关系。

技术框架：CRAFT框架包含以下主要模块：1) 视觉感知模块：使用CLIP提取场景中物体的视觉特征。2) 知识表示模块：利用ConceptNet存储常识知识，例如“刀可以用来切割”。3) 语言模型模块：使用语言模型来理解动作的语义信息。4) 能量推理模块：基于能量函数，将视觉特征、常识知识和语言信息进行融合，并通过迭代优化来预测可供性接地。

关键创新：CRAFT的关键创新在于其神经符号融合框架，它将神经网络的感知能力与符号推理的逻辑性相结合，实现了可解释的可供性接地。与传统的纯视觉方法相比，CRAFT能够利用常识知识来指导视觉信息的理解，从而提高准确性和鲁棒性。

关键设计：CRAFT使用基于能量的推理循环，通过最小化能量函数来优化可供性接地的预测。能量函数的设计考虑了视觉特征、常识知识和语言信息之间的关系。此外，CRAFT还采用了迭代推理机制，通过多次迭代来逐步优化预测结果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CRAFT在多对象、无标签设置下显著提高了可供性接地的准确性，并提供了更强的可解释性。与基线方法相比，CRAFT能够更准确地识别场景中能够支持特定动作的物体，并且能够提供关于其决策过程的解释。

🎯 应用场景

CRAFT可应用于机器人导航、人机交互、智能监控等领域。例如，在机器人导航中，CRAFT可以帮助机器人理解场景中的物体及其功能，从而更好地规划路径和执行任务。在人机交互中，CRAFT可以帮助机器理解用户的意图，并提供更自然、更智能的交互体验。在智能监控中，CRAFT可以帮助监控系统识别异常行为，并及时发出警报。

📄 摘要（原文）

We introduce CRAFT, a neuro-symbolic framework for interpretable affordance grounding, which identifies the objects in a scene that enable a given action (e.g., "cut"). CRAFT integrates structured commonsense priors from ConceptNet and language models with visual evidence from CLIP, using an energy-based reasoning loop to refine predictions iteratively. This process yields transparent, goal-driven decisions to ground symbolic and perceptual structures. Experiments in multi-object, label-free settings demonstrate that CRAFT enhances accuracy while improving interpretability, providing a step toward robust and trustworthy scene understanding.

CRAFT: A Neuro-Symbolic Framework for Visual Functional Affordance Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理