RAAP: Retrieval-Augmented Affordance Prediction with Cross-Image Action Alignment

作者: Qiyuan Zhuang, He-Yang Xu, Yijun Wang, Xin-Yang Zhao, Yang-Yang Li, Xiu-Shen Wei

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-03-31

备注: Accepted to ICRA 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出RAAP框架，通过检索增强和跨图像动作对齐实现鲁棒的Affordance预测。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 可供性预测 机器人操作 检索增强 跨图像对齐 动作预测

📋 核心要点

现有可供性预测方法泛化性差，在大规模模型中易出现接触点错位和动作误判。
RAAP框架解耦静态接触定位和动态动作方向，利用检索增强和对齐学习提升性能。
实验表明，RAAP在少量样本下，对未见过的物体和类别表现出良好的一致性。

📝 摘要（中文）

理解物体可供性对于机器人执行有目的性和精细化的交互至关重要。现有方法要么依赖于检索，但由于稀疏性和覆盖范围的不足而脆弱；要么依赖于大规模模型，但当应用于未见过的类别时，经常错误地定位接触点和预测接触后的动作，从而阻碍了鲁棒的泛化。我们提出了检索增强的可供性预测（RAAP）框架，该框架统一了可供性检索与基于对齐的学习。通过解耦静态接触定位和动态动作方向，RAAP通过密集对应关系传递接触点，并通过检索增强的对齐模型预测动作方向，该模型通过双重加权注意力整合多个参考。RAAP在DROID和HOI4D的紧凑子集上进行训练，每个任务仅需几十个样本，即可在未见过的物体和类别上实现一致的性能，并支持在模拟和真实世界中的零样本机器人操作。

🔬 方法详解

问题定义：现有方法在可供性预测任务中存在泛化性问题。基于检索的方法依赖于数据库的完整性，容易受到稀疏性和覆盖范围的限制。而大规模模型虽然具有一定的泛化能力，但在处理未见过的物体类别时，经常出现接触点定位错误和接触后动作预测错误的问题，导致机器人操作失败。

核心思路：RAAP的核心思路是将可供性预测任务分解为两个子任务：静态接触定位和动态动作方向预测。对于接触定位，利用图像间的密集对应关系进行传递，避免了直接预测的困难。对于动作方向预测，则采用检索增强的对齐模型，通过整合多个参考图像的信息来提高预测的准确性。

技术框架：RAAP框架主要包含两个阶段：接触点传递和动作方向预测。在接触点传递阶段，首先从数据库中检索与目标图像相似的图像，然后利用密集对应关系将参考图像中的接触点传递到目标图像。在动作方向预测阶段，使用检索增强的对齐模型，该模型以目标图像和检索到的参考图像作为输入，通过双重加权注意力机制整合多个参考图像的信息，最终预测目标图像的动作方向。

关键创新：RAAP的关键创新在于将可供性预测任务分解为接触点传递和动作方向预测两个子任务，并分别采用不同的方法进行处理。通过解耦静态和动态信息，可以更好地利用图像间的相似性，提高预测的准确性和鲁棒性。此外，检索增强的对齐模型能够有效地整合多个参考图像的信息，进一步提升了预测性能。

关键设计：RAAP使用了双重加权注意力机制来整合多个参考图像的信息。第一重注意力用于选择与目标图像相关的参考图像，第二重注意力用于对每个参考图像中的不同区域进行加权。损失函数包括接触点定位损失和动作方向预测损失。网络结构方面，使用了预训练的视觉模型提取图像特征，并设计了专门的对齐网络来学习图像间的对应关系。

🖼️ 关键图片

📊 实验亮点

RAAP在DROID和HOI4D数据集上进行了实验，结果表明，RAAP在少量样本下，对未见过的物体和类别表现出良好的一致性。尤其是在零样本机器人操作任务中，RAAP能够成功地完成各种操作，证明了其在实际应用中的潜力。相比于现有方法，RAAP在泛化性和鲁棒性方面都有显著提升。

🎯 应用场景

RAAP可应用于机器人操作、人机交互、虚拟现实等领域。例如，机器人可以利用RAAP来理解物体的功能和操作方式，从而自主地完成各种任务。在人机交互中，RAAP可以帮助系统更好地理解用户的意图，提供更自然和智能的交互体验。在虚拟现实中，RAAP可以增强虚拟环境的真实感和交互性。

📄 摘要（原文）

Understanding object affordances is essential for enabling robots to perform purposeful and fine-grained interactions in diverse and unstructured environments. However, existing approaches either rely on retrieval, which is fragile due to sparsity and coverage gaps, or on large-scale models, which frequently mislocalize contact points and mispredict post-contact actions when applied to unseen categories, thereby hindering robust generalization. We introduce Retrieval-Augmented Affordance Prediction (RAAP), a framework that unifies affordance retrieval with alignment-based learning. By decoupling static contact localization and dynamic action direction, RAAP transfers contact points via dense correspondence and predicts action directions through a retrieval-augmented alignment model that consolidates multiple references with dual-weighted attention. Trained on compact subsets of DROID and HOI4D with as few as tens of samples per task, RAAP achieves consistent performance across unseen objects and categories, and enables zero-shot robotic manipulation in both simulation and the real world. Project website: https://github.com/SEU-VIPGroup/RAAP.

RAAP: Retrieval-Augmented Affordance Prediction with Cross-Image Action Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理