AdaClearGrasp: Learning Adaptive Clearing for Zero-Shot Robust Dexterous Grasping in Densely Cluttered Environments

📄 arXiv: 2603.10616v1 📥 PDF

作者: Zixuan Chen, Wenquan Zhang, Jing Fang, Ruiming Zeng, Zhixuan Xu, Yiwen Hou, Xinke Wang, Jieqi Shi, Jing Huo, Yang Gao

分类: cs.RO

发布日期: 2026-03-11

备注: 12 pages. Under review

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

AdaClearGrasp:学习自适应清理,实现零样本鲁棒灵巧抓取

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 灵巧抓取 自适应清理 视觉-语言模型 强化学习 零样本学习 杂乱环境 机器人操作

📋 核心要点

  1. 现有方法在杂乱环境中直接进行灵巧抓取容易失败,激进清理策略存在安全隐患,缺乏自适应性。
  2. AdaClearGrasp通过视觉-语言模型进行推理,自适应决定清理或直接抓取,并使用强化学习实现零样本抓取。
  3. Clutter-Bench基准测试和sim-to-real实验表明,AdaClearGrasp显著提高了杂乱环境中的抓取成功率。

📝 摘要(中文)

在密集杂乱环境中,物理干涉、视觉遮挡和不稳定的接触通常导致直接灵巧抓取失败,而激进的单体分离策略可能损害安全性。因此,使机器人能够自适应地决定是清理周围物体还是直接抓取目标至关重要。我们提出了AdaClearGrasp,一个闭环决策-执行框架,用于在密集杂乱环境中进行自适应清理和零样本灵巧抓取。该框架将操作建模为一个可控的高级决策过程,该过程确定是直接抓取目标还是首先清理周围物体。预训练的视觉-语言模型(VLM)解释视觉观察和语言任务描述,以推理抓取干涉并生成高级规划骨架,该骨架通过统一的动作接口调用结构化的原子技能。对于灵巧抓取,我们训练了一个具有相对手-物距离表示的强化学习策略,从而实现了跨不同物体几何形状和物理属性的零样本泛化。在执行过程中,视觉反馈监控结果并在失败时触发重新规划,形成闭环校正机制。为了评估杂乱环境中的语言条件灵巧抓取,我们引入了Clutter-Bench,这是第一个具有分级杂乱复杂度的模拟基准。它包括跨三个杂乱级别的七个目标对象,产生210个任务场景。我们进一步在三个杂乱级别的三个对象上进行了sim-to-real实验(18个场景)。结果表明,AdaClearGrasp显着提高了在密集杂乱环境中的抓取成功率。

🔬 方法详解

问题定义:论文旨在解决密集杂乱环境中机器人灵巧抓取的问题。现有方法要么直接尝试抓取,容易受到物理干涉和视觉遮挡的影响而失败;要么采用激进的清理策略,可能对环境造成损害。缺乏一种能够根据环境自适应选择抓取或清理策略的有效方法。

核心思路:论文的核心思路是将抓取任务分解为高级决策过程,即决定是直接抓取目标物体还是先清理周围的障碍物。通过视觉-语言模型(VLM)理解场景和任务描述,推理抓取干涉,并生成一个包含抓取和清理动作的规划骨架。这种自适应决策能力使得机器人能够更鲁棒地完成抓取任务。

技术框架:AdaClearGrasp框架包含以下几个主要模块:1) 视觉-语言模型(VLM):用于理解视觉输入和语言指令,推理抓取干涉。2) 高级规划器:基于VLM的输出,生成包含抓取和清理动作的规划骨架。3) 结构化原子技能:包括抓取和清理等基本操作,通过统一的动作接口调用。4) 强化学习抓取策略:使用相对手-物距离表示,实现零样本泛化。5) 闭环反馈机制:监控执行结果,并在失败时触发重新规划。

关键创新:该论文的关键创新在于:1) 提出了一个自适应的抓取框架,能够根据环境动态选择抓取或清理策略。2) 利用视觉-语言模型进行场景理解和推理,实现了更智能的决策。3) 使用相对手-物距离表示训练强化学习策略,提高了抓取的泛化能力。4) 引入了Clutter-Bench基准测试,为评估杂乱环境中的抓取性能提供了标准。

关键设计:VLM使用预训练模型,通过微调适应抓取任务。强化学习策略使用TD3算法,奖励函数鼓励成功抓取并惩罚碰撞。相对手-物距离表示将手和物体的位置关系编码为输入,避免了对绝对坐标的依赖。Clutter-Bench基准测试包含不同复杂度的杂乱场景,用于评估算法的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Clutter-Bench基准测试中,AdaClearGrasp在不同杂乱程度下均取得了显著的抓取成功率提升。Sim-to-real实验表明,AdaClearGrasp在真实环境中也表现出良好的性能。具体数据需要在论文中查找,但总体趋势是AdaClearGrasp优于直接抓取等基线方法,尤其是在高杂乱度场景下。

🎯 应用场景

该研究成果可应用于自动化仓库、家庭服务机器人、医疗辅助机器人等领域。在这些场景中,机器人需要在复杂、拥挤的环境中完成抓取任务。AdaClearGrasp的自适应清理和零样本抓取能力可以显著提高机器人的操作效率和鲁棒性,降低人工干预的需求,具有重要的实际应用价值和广阔的市场前景。

📄 摘要(原文)

In densely cluttered environments, physical interference, visual occlusions, and unstable contacts often cause direct dexterous grasping to fail, while aggressive singulation strategies may compromise safety. Enabling robots to adaptively decide whether to clear surrounding objects or directly grasp the target is therefore crucial for robust manipulation. We propose AdaClearGrasp, a closed-loop decision-execution framework for adaptive clearing and zero-shot dexterous grasping in densely cluttered environments. The framework formulates manipulation as a controllable high-level decision process that determines whether to directly grasp the target or first clear surrounding objects. A pretrained vision-language model (VLM) interprets visual observations and language task descriptions to reason about grasp interference and generate a high-level planning skeleton, which invokes structured atomic skills through a unified action interface. For dexterous grasping, we train a reinforcement learning policy with a relative hand-object distance representation, enabling zero-shot generalization across diverse object geometries and physical properties. During execution, visual feedback monitors outcomes and triggers replanning upon failures, forming a closed-loop correction mechanism. To evaluate language-conditioned dexterous grasping in clutter, we introduce Clutter-Bench, the first simulation benchmark with graded clutter complexity. It includes seven target objects across three clutter levels, yielding 210 task scenarios. We further perform sim-to-real experiments on three objects under three clutter levels (18 scenarios). Results demonstrate that AdaClearGrasp significantly improves grasp success rates in densely cluttered environments. For more videos and code, please visit our project website: https://chenzixuan99.github.io/adaclear-grasp.github.io/.