AFFORD2ACT: Affordance-Guided Automatic Keypoint Selection for Generalizable and Lightweight Robotic Manipulation

作者: Anukriti Singh, Kasra Torshizi, Khuzema Habib, Kelin Yu, Ruohan Gao, Pratap Tokekar

分类: cs.RO, cs.AI

发布日期: 2025-10-01

💡 一句话要点

AFFORD2ACT：提出基于可供性的自动关键点选择方法，用于通用且轻量级的机器人操作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 机器人操作 可供性 关键点选择 Transformer网络 泛化能力

📋 核心要点

基于视觉的机器人学习依赖于密集的图像或点云输入，计算量大且包含不相关的背景特征。
AFFORD2ACT利用可供性信息，自动选择语义关键点，构建轻量级的机器人操作策略。
实验表明，AFFORD2ACT在数据效率方面有显著提升，并在各种真实场景中表现出良好的泛化能力。

📝 摘要（中文）

本文提出了一种名为AFFORD2ACT的框架，该框架通过可供性引导，从文本提示和单张图像中提取最少的语义2D关键点。AFFORD2ACT遵循三阶段流程：可供性过滤、类别级关键点构建和基于Transformer的策略学习，其中嵌入了门控机制以推理最相关的关键点，从而产生一个紧凑的38维状态策略，该策略可以在15分钟内完成训练，并在没有本体感受或密集表示的情况下实时良好地执行。在各种真实世界的操作任务中，AFFORD2ACT始终提高数据效率，在未见过的物体、新类别、背景和干扰物上实现了82%的成功率。

🔬 方法详解

问题定义：现有基于视觉的机器人操作方法通常依赖于密集的图像或点云输入，这导致计算成本高昂，并且容易受到无关背景特征的干扰。虽然基于关键点的方法可以关注操作相关的特征并减轻计算负担，但它们往往依赖于手动启发式方法或任务耦合的选择，限制了其可扩展性和语义理解能力。

核心思路：AFFORD2ACT的核心思路是利用可供性（affordance）信息来引导关键点的选择。可供性描述了物体提供的操作可能性，通过结合文本提示和图像信息，可以自动提取与操作任务相关的语义关键点，从而构建一个轻量级且具有泛化能力的机器人操作策略。这种方法避免了手动设计关键点或针对特定任务进行训练，提高了策略的通用性和数据效率。

技术框架：AFFORD2ACT框架包含三个主要阶段：1) 可供性过滤：利用文本提示和图像信息，过滤掉与操作任务无关的区域，聚焦于具有可供性的区域。2) 类别级关键点构建：在过滤后的区域中，构建类别级别的关键点，这些关键点代表了物体上与操作相关的特定位置。3) 基于Transformer的策略学习：使用Transformer网络学习一个策略，该策略以提取的关键点作为输入，并通过嵌入的门控机制来选择最相关的关键点，最终输出控制机器人动作的指令。

关键创新：AFFORD2ACT的关键创新在于其自动化的关键点选择方法，该方法利用可供性信息，无需手动设计或针对特定任务进行训练。此外，该框架还引入了嵌入式门控机制，允许策略网络根据输入的关键点动态地选择最相关的特征，从而提高策略的鲁棒性和泛化能力。

关键设计：AFFORD2ACT使用CLIP模型提取图像和文本的特征，用于可供性过滤。关键点构建阶段使用预训练的检测模型（例如DETR）来检测物体上的关键点。Transformer网络采用标准的编码器-解码器结构，并嵌入了门控机制，该机制根据输入的关键点动态地调整每个关键点的权重。最终的策略网络输出一个38维的状态向量，用于控制机器人的动作。

📊 实验亮点

AFFORD2ACT在各种真实世界的操作任务中表现出显著的性能提升。在未见过的物体、新类别、背景和干扰物上实现了82%的成功率。此外，该框架能够以极高的数据效率进行训练，仅需15分钟即可训练出一个有效的策略。与传统的基于密集表示的方法相比，AFFORD2ACT大大降低了计算成本，并提高了泛化能力。

🎯 应用场景

AFFORD2ACT具有广泛的应用前景，可应用于各种机器人操作任务，例如家庭服务机器人、工业自动化和医疗机器人。该框架能够提高机器人在复杂环境中的操作能力，并降低开发和部署成本。未来，该研究可以扩展到更复杂的任务和环境，例如多物体操作和动态环境。

📄 摘要（原文）

Vision-based robot learning often relies on dense image or point-cloud inputs, which are computationally heavy and entangle irrelevant background features. Existing keypoint-based approaches can focus on manipulation-centric features and be lightweight, but either depend on manual heuristics or task-coupled selection, limiting scalability and semantic understanding. To address this, we propose AFFORD2ACT, an affordance-guided framework that distills a minimal set of semantic 2D keypoints from a text prompt and a single image. AFFORD2ACT follows a three-stage pipeline: affordance filtering, category-level keypoint construction, and transformer-based policy learning with embedded gating to reason about the most relevant keypoints, yielding a compact 38-dimensional state policy that can be trained in 15 minutes, which performs well in real-time without proprioception or dense representations. Across diverse real-world manipulation tasks, AFFORD2ACT consistently improves data efficiency, achieving an 82% success rate on unseen objects, novel categories, backgrounds, and distractors.

AFFORD2ACT: Affordance-Guided Automatic Keypoint Selection for Generalizable and Lightweight Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册