AFFORD2ACT: Affordance-Guided Automatic Keypoint Selection for Generalizable and Lightweight Robotic Manipulation

📄 arXiv: 2510.01433v1 📥 PDF

作者: Anukriti Singh, Kasra Torshizi, Khuzema Habib, Kelin Yu, Ruohan Gao, Pratap Tokekar

分类: cs.RO, cs.AI

发布日期: 2025-10-01


💡 一句话要点

AFFORD2ACT:提出基于可供性的自动关键点选择方法,用于通用且轻量级的机器人操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 机器人操作 可供性 关键点选择 Transformer网络 泛化能力

📋 核心要点

  1. 基于视觉的机器人学习依赖于密集的图像或点云输入,计算量大且包含不相关的背景特征。
  2. AFFORD2ACT利用可供性信息,自动选择语义关键点,构建轻量级的机器人操作策略。
  3. 实验表明,AFFORD2ACT在数据效率方面有显著提升,并在各种真实场景中表现出良好的泛化能力。

📝 摘要(中文)

本文提出了一种名为AFFORD2ACT的框架,该框架通过可供性引导,从文本提示和单张图像中提取最少的语义2D关键点。AFFORD2ACT遵循三阶段流程:可供性过滤、类别级关键点构建和基于Transformer的策略学习,其中嵌入了门控机制以推理最相关的关键点,从而产生一个紧凑的38维状态策略,该策略可以在15分钟内完成训练,并在没有本体感受或密集表示的情况下实时良好地执行。在各种真实世界的操作任务中,AFFORD2ACT始终提高数据效率,在未见过的物体、新类别、背景和干扰物上实现了82%的成功率。

🔬 方法详解

问题定义:现有基于视觉的机器人操作方法通常依赖于密集的图像或点云输入,这导致计算成本高昂,并且容易受到无关背景特征的干扰。虽然基于关键点的方法可以关注操作相关的特征并减轻计算负担,但它们往往依赖于手动启发式方法或任务耦合的选择,限制了其可扩展性和语义理解能力。

核心思路:AFFORD2ACT的核心思路是利用可供性(affordance)信息来引导关键点的选择。可供性描述了物体提供的操作可能性,通过结合文本提示和图像信息,可以自动提取与操作任务相关的语义关键点,从而构建一个轻量级且具有泛化能力的机器人操作策略。这种方法避免了手动设计关键点或针对特定任务进行训练,提高了策略的通用性和数据效率。

技术框架:AFFORD2ACT框架包含三个主要阶段:1) 可供性过滤:利用文本提示和图像信息,过滤掉与操作任务无关的区域,聚焦于具有可供性的区域。2) 类别级关键点构建:在过滤后的区域中,构建类别级别的关键点,这些关键点代表了物体上与操作相关的特定位置。3) 基于Transformer的策略学习:使用Transformer网络学习一个策略,该策略以提取的关键点作为输入,并通过嵌入的门控机制来选择最相关的关键点,最终输出控制机器人动作的指令。

关键创新:AFFORD2ACT的关键创新在于其自动化的关键点选择方法,该方法利用可供性信息,无需手动设计或针对特定任务进行训练。此外,该框架还引入了嵌入式门控机制,允许策略网络根据输入的关键点动态地选择最相关的特征,从而提高策略的鲁棒性和泛化能力。

关键设计:AFFORD2ACT使用CLIP模型提取图像和文本的特征,用于可供性过滤。关键点构建阶段使用预训练的检测模型(例如DETR)来检测物体上的关键点。Transformer网络采用标准的编码器-解码器结构,并嵌入了门控机制,该机制根据输入的关键点动态地调整每个关键点的权重。最终的策略网络输出一个38维的状态向量,用于控制机器人的动作。

📊 实验亮点

AFFORD2ACT在各种真实世界的操作任务中表现出显著的性能提升。在未见过的物体、新类别、背景和干扰物上实现了82%的成功率。此外,该框架能够以极高的数据效率进行训练,仅需15分钟即可训练出一个有效的策略。与传统的基于密集表示的方法相比,AFFORD2ACT大大降低了计算成本,并提高了泛化能力。

🎯 应用场景

AFFORD2ACT具有广泛的应用前景,可应用于各种机器人操作任务,例如家庭服务机器人、工业自动化和医疗机器人。该框架能够提高机器人在复杂环境中的操作能力,并降低开发和部署成本。未来,该研究可以扩展到更复杂的任务和环境,例如多物体操作和动态环境。

📄 摘要(原文)

Vision-based robot learning often relies on dense image or point-cloud inputs, which are computationally heavy and entangle irrelevant background features. Existing keypoint-based approaches can focus on manipulation-centric features and be lightweight, but either depend on manual heuristics or task-coupled selection, limiting scalability and semantic understanding. To address this, we propose AFFORD2ACT, an affordance-guided framework that distills a minimal set of semantic 2D keypoints from a text prompt and a single image. AFFORD2ACT follows a three-stage pipeline: affordance filtering, category-level keypoint construction, and transformer-based policy learning with embedded gating to reason about the most relevant keypoints, yielding a compact 38-dimensional state policy that can be trained in 15 minutes, which performs well in real-time without proprioception or dense representations. Across diverse real-world manipulation tasks, AFFORD2ACT consistently improves data efficiency, achieving an 82% success rate on unseen objects, novel categories, backgrounds, and distractors.