CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

作者: Zhou Chen, Joe Lin, Carson Bulgin, Sathyanarayanan N. Aakur

分类: cs.RO, cs.AI

发布日期: 2025-12-03

备注: 20 pages. 3 figures, 4 tables. Under Review

💡 一句话要点

提出CRAFT-E框架以解决助理机器人物体功能理解问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 助理机器人 神经符号框架 物体功能理解 可解释性 抓取推理 知识图谱 视觉-语言对齐

📋 核心要点

现有助理机器人方法多依赖黑箱模型，缺乏透明性和可控性，限制了其在实际应用中的可靠性。
CRAFT-E框架通过结合符号推理与感知，提供了可解释的物体选择路径，增强了功能推理的可靠性。
CRAFT-E在多个实验中表现出色，包括静态场景和真实世界试验，展示了其在物体功能理解上的优势。

📝 摘要（中文）

助理机器人在非结构化环境中不仅需要理解物体的种类，还需理解其可用功能。现有方法多依赖黑箱模型或固定的功能标签，导致透明性、可控性和可靠性不足。本文提出CRAFT-E，一个模块化的神经符号框架，结合结构化的动词-属性-物体知识图谱与视觉-语言对齐及基于能量的抓取推理。该系统生成可解释的物体选择路径，并将抓取可行性纳入功能推理中。我们还构建了一个统一注释的基准数据集，并在物理机器人上部署了完整的管道。CRAFT-E在静态场景、基于ImageNet的功能检索及涉及20个动词和39个物体的真实世界实验中表现出色，提供了透明的组件级诊断。

🔬 方法详解

问题定义：本文旨在解决助理机器人在非结构化环境中对物体功能的理解问题。现有方法往往依赖黑箱模型或固定的功能标签，导致透明性和可控性不足，影响实际应用的可靠性。

核心思路：CRAFT-E框架通过构建一个模块化的神经符号系统，结合结构化的动词-属性-物体知识图谱与视觉-语言对齐，提供了可解释的物体选择路径，并将抓取可行性纳入功能推理中。这样的设计使得系统在物体选择时能够考虑多种因素，增强了推理的透明性和可靠性。

技术框架：CRAFT-E的整体架构包括知识图谱构建、视觉-语言对齐、抓取推理等主要模块。系统首先通过知识图谱整合动词和物体的属性信息，然后进行视觉和语言的对齐，最后通过能量模型进行抓取可行性推理。

关键创新：CRAFT-E的主要创新在于其模块化的神经符号框架，能够生成可解释的物体选择路径，并将抓取可行性作为功能推理的核心部分。这与现有的端到端模型形成鲜明对比，提供了更高的透明性和可定制性。

关键设计：在设计中，CRAFT-E采用了统一的注释标准，构建了基准数据集，涵盖动词-物体兼容性、分割和抓取候选项等信息。此外，系统的损失函数和网络结构经过精心设计，以确保在不同场景中的鲁棒性和准确性。

🖼️ 关键图片

📊 实验亮点

CRAFT-E在静态场景和真实世界试验中表现出色，尤其在功能检索任务中，展示了其在处理20个动词和39个物体时的竞争力。系统在面对感知噪声时依然保持鲁棒性，并提供了透明的组件级诊断，显著提升了决策的可信度。

🎯 应用场景

CRAFT-E框架在助理机器人领域具有广泛的应用潜力，能够帮助机器人在复杂环境中更好地理解物体的功能和抓取可行性。这一研究不仅提升了机器人在实际任务中的表现，也为未来的智能系统提供了可解释和可定制的决策支持，推动了人机协作的进步。

📄 摘要（原文）

Assistive robots operating in unstructured environments must understand not only what objects are, but what they can be used for. This requires grounding language-based action queries to objects that both afford the requested function and can be physically retrieved. Existing approaches often rely on black-box models or fixed affordance labels, limiting transparency, controllability, and reliability for human-facing applications. We introduce CRAFT-E, a modular neuro-symbolic framework that composes a structured verb-property-object knowledge graph with visual-language alignment and energy-based grasp reasoning. The system generates interpretable grounding paths that expose the factors influencing object selection and incorporates grasp feasibility as an integral part of affordance inference. We further construct a benchmark dataset with unified annotations for verb-object compatibility, segmentation, and grasp candidates, and deploy the full pipeline on a physical robot. CRAFT-E achieves competitive performance in static scenes, ImageNet-based functional retrieval, and real-world trials involving 20 verbs and 39 objects. The framework remains robust under perceptual noise and provides transparent, component-level diagnostics. By coupling symbolic reasoning with embodied perception, CRAFT-E offers an interpretable and customizable alternative to end-to-end models for affordance-grounded object selection, supporting trustworthy decision-making in assistive robotic systems.

CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理