CLASP: Closed-loop Asynchronous Spatial Perception for Open-vocabulary Desktop Object Grasping

📄 arXiv: 2604.11320v1 📥 PDF

作者: Yiran Ling, Wenxuan Li, Siying Dong, Yize Zhang, Xiaoyao Huang, Jing Jiang, Ruonan Li, Jie Liu

分类: cs.RO

发布日期: 2026-04-13


💡 一句话要点

CLASP:面向开放词汇桌面物体抓取的闭环异步空间感知

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人抓取 视觉语言模型 多模态感知 闭环控制 空间推理 异步控制 数据增强

📋 核心要点

  1. 现有方法缺乏高质量多模态数据,几何基础薄弱导致空间幻觉,开环执行在动态环境中脆弱。
  2. 提出CLASP框架,通过解耦语义意图和几何基础,并引入闭环反馈机制,提升抓取鲁棒性。
  3. 实验结果表明,CLASP在多种物体和复杂场景下均优于现有方法,总体成功率达到87.0%。

📝 摘要(中文)

桌面物体抓取在智能制造、物流和农业中应用广泛。尽管视觉-语言模型(VLMs)在机器人操作方面显示出强大的潜力,但它们在低级抓取中的部署面临关键挑战:高质量多模态演示数据稀缺、几何基础薄弱导致的空间幻觉,以及动态环境中开环执行的脆弱性。为了解决这些挑战,我们提出了一种新颖的异步闭环框架——闭环异步空间感知(CLASP),它集成了多模态感知、逻辑推理和状态反射反馈。首先,我们设计了一个双路径分层感知模块,将高层语义意图与几何基础解耦,引导推理模型的输出和明确的动作元组,减少空间幻觉。其次,实现了一个异步闭环评估器,用于比较执行前后的状态,提供基于文本的诊断反馈,以建立鲁棒的纠错循环,并提高传统开环执行在动态环境中的鲁棒性。最后,我们设计了一个可扩展的多模态数据引擎,可以自动从真实和合成场景中合成高质量的空间注释和推理模板,无需人工遥操作。大量实验表明,我们的方法显著优于现有基线,实现了87.0%的总体成功率。值得注意的是,所提出的框架在各种对象上表现出卓越的泛化能力,弥合了模拟到真实的差距,并在几何上具有挑战性的类别和杂乱的场景中提供了卓越的鲁棒性。

🔬 方法详解

问题定义:现有基于视觉语言模型的机器人抓取方法,在桌面物体抓取任务中面临三个主要痛点:一是缺乏高质量的多模态训练数据;二是由于几何信息不足,容易产生空间幻觉,导致抓取失败;三是在动态环境中,传统的开环执行方式容易受到干扰,鲁棒性较差。

核心思路:CLASP的核心思路是通过解耦高层语义意图和底层几何信息,并引入闭环反馈机制来解决上述问题。通过双路径分层感知模块,模型可以更好地理解抓取意图,并准确估计物体的位置和姿态。异步闭环评估器则可以根据执行前后的状态变化,提供文本反馈,形成纠错循环,提高抓取的鲁棒性。

技术框架:CLASP框架主要包含三个模块:双路径分层感知模块、异步闭环评估器和多模态数据引擎。双路径分层感知模块负责从视觉和语言输入中提取语义和几何信息;异步闭环评估器负责评估抓取结果,并提供反馈;多模态数据引擎负责生成高质量的训练数据。整个流程是一个异步闭环的过程,感知模块提供抓取方案,执行后评估器进行评估并反馈,从而不断优化抓取策略。

关键创新:CLASP的关键创新在于其异步闭环的架构设计和双路径分层感知模块。异步闭环架构使得系统可以根据实际执行结果进行反馈和调整,提高了鲁棒性。双路径分层感知模块则可以更好地解耦语义和几何信息,减少空间幻觉。此外,自动生成高质量多模态数据的数据引擎也是一个重要的创新点。

关键设计:双路径分层感知模块包含两个路径:一个用于处理高层语义意图,另一个用于处理底层几何信息。这两个路径的信息在后续的模块中进行融合,以生成最终的抓取方案。异步闭环评估器使用文本描述来表示执行前后的状态变化,并根据这些描述生成反馈信息。多模态数据引擎则使用真实和合成场景来生成训练数据,并自动标注空间信息和推理模板。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CLASP在桌面物体抓取任务中取得了显著的性能提升,总体成功率达到87.0%,显著优于现有基线方法。该方法在多种物体和复杂场景下均表现出良好的泛化能力和鲁棒性,成功弥合了模拟到真实的差距。尤其是在几何上具有挑战性的类别和杂乱的场景中,CLASP的性能优势更加明显。

🎯 应用场景

CLASP技术可广泛应用于智能制造、物流、农业等领域,实现对桌面物体的自动化抓取。例如,在智能工厂中,机器人可以利用CLASP技术抓取不同形状和大小的零件,进行组装和加工。在物流领域,机器人可以利用CLASP技术进行货物的分拣和包装。在农业领域,机器人可以利用CLASP技术进行农产品的采摘和分级。该研究有助于提高生产效率,降低人工成本,并推动机器人技术的普及。

📄 摘要(原文)

Robot grasping of desktop object is widely used in intelligent manufacturing, logistics, and agriculture.Although vision-language models (VLMs) show strong potential for robotic manipulation, their deployment in low-level grasping faces key challenges: scarce high-quality multimodal demonstrations, spatial hallucination caused by weak geometric grounding, and the fragility of open-loop execution in dynamic environments. To address these challenges, we propose Closed-Loop Asynchronous Spatial Perception(CLASP), a novel asynchronous closed-loop framework that integrates multimodal perception, logical reasoning, and state-reflective feedback. First, we design a Dual-Pathway Hierarchical Perception module that decouples high-level semantic intent from geometric grounding. The design guides the output of the inference model and the definite action tuples, reducing spatial illusions. Second, an Asynchronous Closed-Loop Evaluator is implemented to compare pre- and post-execution states, providing text-based diagnostic feedback to establish a robust error-correction loop and improving the vulnerability of traditional open-loop execution in dynamic environments. Finally, we design a scalable multi-modal data engine that automatically synthesizes high-quality spatial annotations and reasoning templates from real and synthetic scenes without human teleoperation. Extensive experiments demonstrate that our approach significantly outperforms existing baselines, achieving an 87.0% overall success rate. Notably, the proposed framework exhibits remarkable generalization across diverse objects, bridging the sim-to-real gap and providing exceptional robustness in geometrically challenging categories and cluttered scenarios.