Affordance RAG: Hierarchical Multimodal Retrieval with Affordance-Aware Embodied Memory for Mobile Manipulation

作者: Ryosuke Korekata, Quanting Xie, Yonatan Bisk, Komei Sugiura

分类: cs.RO, cs.CL, cs.CV

发布日期: 2025-12-22

备注: Accepted to IEEE RA-L, with presentation at ICRA 2026

💡 一句话要点

Affordance RAG：用于移动操作的具身记忆分层多模态检索

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱五：交互与反应 (Interaction & Reaction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 移动操作 具身智能 可供性 多模态检索 自然语言理解

📋 核心要点

现有方法在开放词汇移动操作中，难以有效理解视觉语义和操作行为的可供性。
Affordance RAG通过构建可供性感知具身记忆，实现基于区域和视觉语义的分层多模态检索。
实验表明，该方法在检索性能和真实环境任务成功率上均优于现有方法，任务成功率达到85%。

📝 摘要（中文）

本文研究了开放词汇移动操作问题，即要求机器人在自由形式的自然语言指令下，将各种物体运送到指定容器。这项任务极具挑战性，因为它涉及理解视觉语义和操作行为的可供性。为了应对这些挑战，我们提出了Affordance RAG，这是一个零样本分层多模态检索框架，它从预先探索的图像中构建可供性感知具身记忆。该模型基于区域和视觉语义检索候选目标，并使用可供性得分对其进行重新排序，从而使机器人能够识别在真实环境中可能执行的操作选项。我们的方法在大型室内环境中移动操作指令的检索性能方面优于现有方法。此外，在真实世界的实验中，机器人根据自由形式的指令在室内环境中执行移动操作，所提出的方法实现了85%的任务成功率，在检索性能和整体任务成功率方面均优于现有方法。

🔬 方法详解

问题定义：论文旨在解决开放词汇移动操作任务，即机器人需要根据自然语言指令将物体运送到指定地点。现有方法在理解视觉语义和操作行为的可供性方面存在不足，导致检索性能和任务成功率较低。现有方法难以有效利用预先探索的环境信息，无法准确判断哪些操作是可行的。

核心思路：论文的核心思路是构建一个可供性感知的具身记忆，并利用分层多模态检索框架Affordance RAG来提高检索性能和任务成功率。通过预先探索的环境图像构建记忆，模型可以学习到不同物体和场景的可供性信息。分层检索允许模型首先基于区域和视觉语义缩小搜索范围，然后使用可供性得分对候选目标进行重新排序，从而选择最有可能成功执行的操作。

技术框架：Affordance RAG框架包含以下主要模块：1) 具身记忆构建：利用预先探索的图像构建可供性感知的具身记忆。2) 分层检索：首先基于区域和视觉语义检索候选目标，然后使用可供性得分对候选目标进行重新排序。3) 操作执行：机器人根据检索结果执行移动操作。整体流程是，给定自然语言指令，模型首先从具身记忆中检索候选目标，然后根据可供性得分选择最佳目标，最后控制机器人执行操作。

关键创新：论文的关键创新在于提出了Affordance RAG框架，该框架能够有效地利用可供性信息来提高移动操作的检索性能和任务成功率。与现有方法相比，Affordance RAG能够更好地理解视觉语义和操作行为的可供性，从而选择更合适的候选目标。此外，分层检索策略能够有效地缩小搜索范围，提高检索效率。

关键设计：论文的关键设计包括：1) 可供性得分计算：使用深度学习模型来预测不同物体和场景的可供性得分。2) 分层检索策略：首先使用区域和视觉语义进行粗粒度检索，然后使用可供性得分进行细粒度排序。3) 损失函数设计：设计合适的损失函数来训练可供性预测模型，例如对比损失或三元组损失。

🖼️ 关键图片

📊 实验亮点

Affordance RAG在真实世界的实验中取得了显著的成果，任务成功率达到85%，显著优于现有方法。在检索性能方面，Affordance RAG也优于现有方法，表明其能够更准确地理解自然语言指令和环境的可供性。这些实验结果验证了Affordance RAG的有效性和实用性。

🎯 应用场景

该研究成果可应用于家庭服务机器人、仓储物流机器人、医疗辅助机器人等领域。通过理解自然语言指令和环境的可供性，机器人可以更智能地完成各种任务，例如物品整理、环境清洁、病人护理等。该技术有助于提高机器人的自主性和适应性，使其能够更好地服务于人类。

📄 摘要（原文）

In this study, we address the problem of open-vocabulary mobile manipulation, where a robot is required to carry a wide range of objects to receptacles based on free-form natural language instructions. This task is challenging, as it involves understanding visual semantics and the affordance of manipulation actions. To tackle these challenges, we propose Affordance RAG, a zero-shot hierarchical multimodal retrieval framework that constructs Affordance-Aware Embodied Memory from pre-explored images. The model retrieves candidate targets based on regional and visual semantics and reranks them with affordance scores, allowing the robot to identify manipulation options that are likely to be executable in real-world environments. Our method outperformed existing approaches in retrieval performance for mobile manipulation instruction in large-scale indoor environments. Furthermore, in real-world experiments where the robot performed mobile manipulation in indoor environments based on free-form instructions, the proposed method achieved a task success rate of 85%, outperforming existing methods in both retrieval performance and overall task success.

Affordance RAG: Hierarchical Multimodal Retrieval with Affordance-Aware Embodied Memory for Mobile Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理