CLASP: Closed-loop Asynchronous Spatial Perception for Open-vocabulary Desktop Object Grasping

作者: Yiran Ling, Wenxuan Li, Siying Dong, Yize Zhang, Xiaoyao Huang, Jing Jiang, Ruonan Li, Jie Liu

分类: cs.RO

发布日期: 2026-04-13

💡 一句话要点

CLASP：面向开放词汇桌面物体抓取的闭环异步空间感知

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人抓取 视觉语言模型 多模态感知 闭环控制 空间推理 异步控制 数据增强

📋 核心要点

现有方法缺乏高质量多模态数据，几何基础薄弱导致空间幻觉，开环执行在动态环境中脆弱。
提出CLASP框架，通过解耦语义意图和几何基础，并引入闭环反馈机制，提升抓取鲁棒性。
实验结果表明，CLASP在多种物体和复杂场景下均优于现有方法，总体成功率达到87.0%。

📝 摘要（中文）

桌面物体抓取在智能制造、物流和农业中应用广泛。尽管视觉-语言模型(VLMs)在机器人操作方面显示出强大的潜力，但它们在低级抓取中的部署面临关键挑战：高质量多模态演示数据稀缺、几何基础薄弱导致的空间幻觉，以及动态环境中开环执行的脆弱性。为了解决这些挑战，我们提出了一种新颖的异步闭环框架——闭环异步空间感知(CLASP)，它集成了多模态感知、逻辑推理和状态反射反馈。首先，我们设计了一个双路径分层感知模块，将高层语义意图与几何基础解耦，引导推理模型的输出和明确的动作元组，减少空间幻觉。其次，实现了一个异步闭环评估器，用于比较执行前后的状态，提供基于文本的诊断反馈，以建立鲁棒的纠错循环，并提高传统开环执行在动态环境中的鲁棒性。最后，我们设计了一个可扩展的多模态数据引擎，可以自动从真实和合成场景中合成高质量的空间注释和推理模板，无需人工遥操作。大量实验表明，我们的方法显著优于现有基线，实现了87.0%的总体成功率。值得注意的是，所提出的框架在各种对象上表现出卓越的泛化能力，弥合了模拟到真实的差距，并在几何上具有挑战性的类别和杂乱的场景中提供了卓越的鲁棒性。

🔬 方法详解

问题定义：现有基于视觉语言模型的机器人抓取方法，在桌面物体抓取任务中面临三个主要痛点：一是缺乏高质量的多模态训练数据；二是由于几何信息不足，容易产生空间幻觉，导致抓取失败；三是在动态环境中，传统的开环执行方式容易受到干扰，鲁棒性较差。

核心思路：CLASP的核心思路是通过解耦高层语义意图和底层几何信息，并引入闭环反馈机制来解决上述问题。通过双路径分层感知模块，模型可以更好地理解抓取意图，并准确估计物体的位置和姿态。异步闭环评估器则可以根据执行前后的状态变化，提供文本反馈，形成纠错循环，提高抓取的鲁棒性。

技术框架：CLASP框架主要包含三个模块：双路径分层感知模块、异步闭环评估器和多模态数据引擎。双路径分层感知模块负责从视觉和语言输入中提取语义和几何信息；异步闭环评估器负责评估抓取结果，并提供反馈；多模态数据引擎负责生成高质量的训练数据。整个流程是一个异步闭环的过程，感知模块提供抓取方案，执行后评估器进行评估并反馈，从而不断优化抓取策略。

关键创新：CLASP的关键创新在于其异步闭环的架构设计和双路径分层感知模块。异步闭环架构使得系统可以根据实际执行结果进行反馈和调整，提高了鲁棒性。双路径分层感知模块则可以更好地解耦语义和几何信息，减少空间幻觉。此外，自动生成高质量多模态数据的数据引擎也是一个重要的创新点。

关键设计：双路径分层感知模块包含两个路径：一个用于处理高层语义意图，另一个用于处理底层几何信息。这两个路径的信息在后续的模块中进行融合，以生成最终的抓取方案。异步闭环评估器使用文本描述来表示执行前后的状态变化，并根据这些描述生成反馈信息。多模态数据引擎则使用真实和合成场景来生成训练数据，并自动标注空间信息和推理模板。

🖼️ 关键图片

📊 实验亮点

CLASP在桌面物体抓取任务中取得了显著的性能提升，总体成功率达到87.0%，显著优于现有基线方法。该方法在多种物体和复杂场景下均表现出良好的泛化能力和鲁棒性，成功弥合了模拟到真实的差距。尤其是在几何上具有挑战性的类别和杂乱的场景中，CLASP的性能优势更加明显。

🎯 应用场景

CLASP技术可广泛应用于智能制造、物流、农业等领域，实现对桌面物体的自动化抓取。例如，在智能工厂中，机器人可以利用CLASP技术抓取不同形状和大小的零件，进行组装和加工。在物流领域，机器人可以利用CLASP技术进行货物的分拣和包装。在农业领域，机器人可以利用CLASP技术进行农产品的采摘和分级。该研究有助于提高生产效率，降低人工成本，并推动机器人技术的普及。

📄 摘要（原文）

Robot grasping of desktop object is widely used in intelligent manufacturing, logistics, and agriculture.Although vision-language models (VLMs) show strong potential for robotic manipulation, their deployment in low-level grasping faces key challenges: scarce high-quality multimodal demonstrations, spatial hallucination caused by weak geometric grounding, and the fragility of open-loop execution in dynamic environments. To address these challenges, we propose Closed-Loop Asynchronous Spatial Perception(CLASP), a novel asynchronous closed-loop framework that integrates multimodal perception, logical reasoning, and state-reflective feedback. First, we design a Dual-Pathway Hierarchical Perception module that decouples high-level semantic intent from geometric grounding. The design guides the output of the inference model and the definite action tuples, reducing spatial illusions. Second, an Asynchronous Closed-Loop Evaluator is implemented to compare pre- and post-execution states, providing text-based diagnostic feedback to establish a robust error-correction loop and improving the vulnerability of traditional open-loop execution in dynamic environments. Finally, we design a scalable multi-modal data engine that automatically synthesizes high-quality spatial annotations and reasoning templates from real and synthetic scenes without human teleoperation. Extensive experiments demonstrate that our approach significantly outperforms existing baselines, achieving an 87.0% overall success rate. Notably, the proposed framework exhibits remarkable generalization across diverse objects, bridging the sim-to-real gap and providing exceptional robustness in geometrically challenging categories and cluttered scenarios.

CLASP: Closed-loop Asynchronous Spatial Perception for Open-vocabulary Desktop Object Grasping

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理