SpaceDex: Generalizable Dexterous Grasping in Tiered Workspaces

📄 arXiv: 2604.17888v1 📥 PDF

作者: Wensheng Wang, Chuanjun Guo, Wei Wei, Tong Wu, Ning Tan

分类: cs.RO

发布日期: 2026-04-20


💡 一句话要点

SpaceDex:针对分层工作空间的可泛化灵巧抓取框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 灵巧抓取 分层工作空间 视觉-语言模型 臂手解耦 空间推理

📋 核心要点

  1. 现有灵巧抓取方法在遮挡严重、空间狭窄的分层工作空间中泛化性不足,且未充分考虑臂手控制的差异性。
  2. SpaceDex采用分层框架,利用视觉-语言模型进行高层空间推理,并设计臂手特征分离网络进行底层控制。
  3. 实验表明,SpaceDex在真实世界分层工作空间中,相比传统桌面基线,抓取成功率提升显著。

📝 摘要(中文)

在高自由度灵巧手在分层工作空间中进行可泛化抓取仍然具有挑战性,因为遮挡、狭窄间隙和高度相关的约束比开放桌面场景中更强。现有方法大多在相对无遮挡的环境中评估,并且通常没有明确地对机械臂导航和手部关节运动在空间约束下的不同控制需求进行建模。我们提出了SpaceDex,一个用于约束3D环境中灵巧操作的分层框架。在高层,视觉-语言模型(VLM)规划器解析用户意图,推理多个相机视角的遮挡和高度关系,并生成目标边界框用于零样本分割和掩码跟踪。此阶段为下游控制提供结构化的空间指导,而不是依赖于单视图目标选择。在低层,我们引入了一个臂-手特征分离网络,该网络将机械臂的全局轨迹控制与手部的几何感知抓取模式选择分离,减少了到达和抓取目标之间的特征干扰。控制器进一步集成了多视图感知、指尖触觉传感和少量恢复演示,以提高对部分可观测性和非标称接触的鲁棒性。在涉及四个类别中超过30个未见物体的100次真实世界试验中,SpaceDex实现了63.0%的成功率,而强大的桌面基线为39.0%。这些结果表明,将分层空间规划与臂-手表示解耦相结合可以提高在空间受限环境中的灵巧抓取性能。

🔬 方法详解

问题定义:论文旨在解决在高自由度灵巧手在分层工作空间中进行可泛化抓取的问题。现有方法主要在无遮挡的桌面环境中进行评估,忽略了分层工作空间中普遍存在的遮挡、狭窄间隙和高度依赖性约束。此外,现有方法通常没有明确地对机械臂导航和手部关节运动在空间约束下的不同控制需求进行建模,导致性能下降。

核心思路:SpaceDex的核心思路是将灵巧抓取任务分解为分层结构,在高层进行空间推理和目标引导,在低层进行臂手解耦控制。通过视觉-语言模型进行全局规划,提供结构化的空间指导,避免单视角信息的局限性。通过臂手特征分离网络,解耦机械臂的全局轨迹控制和手部的局部抓取模式选择,减少特征干扰,提高控制精度。

技术框架:SpaceDex框架包含两个主要层次:高层空间规划和低层臂手控制。高层空间规划模块利用视觉-语言模型(VLM)解析用户意图,并结合多视角信息进行遮挡推理和高度关系分析,生成目标物体的边界框。低层臂手控制模块包含一个臂-手特征分离网络,该网络将机械臂的全局轨迹控制与手部的几何感知抓取模式选择分离。此外,控制器还集成了多视图感知、指尖触觉传感和少量恢复演示,以提高鲁棒性。

关键创新:SpaceDex的关键创新在于以下几点:1) 提出了一个分层框架,将灵巧抓取任务分解为空间规划和臂手控制两个层次。2) 引入了臂-手特征分离网络,解耦了机械臂的全局轨迹控制和手部的局部抓取模式选择。3) 利用视觉-语言模型进行高层空间推理,为下游控制提供结构化的空间指导。与现有方法相比,SpaceDex能够更好地处理分层工作空间中的遮挡和空间约束,并提高抓取性能。

关键设计:臂-手特征分离网络是SpaceDex的关键设计之一。该网络包含两个分支:一个用于机械臂的全局轨迹控制,另一个用于手部的几何感知抓取模式选择。这两个分支分别提取特征,并通过一个融合层进行信息融合。损失函数包括轨迹跟踪损失、抓取模式分类损失和触觉反馈损失。此外,SpaceDex还使用了少量恢复演示来提高对部分可观测性和非标称接触的鲁棒性。具体参数设置和网络结构细节在论文中有更详细的描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SpaceDex在真实世界的分层工作空间中进行了实验验证,涉及超过30个未见物体。实验结果表明,SpaceDex的抓取成功率达到63.0%,相比强大的桌面基线(39.0%)提升了24个百分点。这表明SpaceDex在处理遮挡和空间约束方面具有显著优势,能够有效提高灵巧抓取性能。

🎯 应用场景

SpaceDex在自动化装配、仓储物流、家庭服务机器人等领域具有广泛的应用前景。该框架能够使机器人更好地理解用户意图,并在复杂、受限的空间环境中进行灵巧操作,从而提高生产效率和服务质量。未来,SpaceDex有望应用于更多需要精细操作的场景,例如医疗手术和精密仪器维修。

📄 摘要(原文)

Generalizable grasping with high-degree-of-freedom (DoF) dexterous hands remains challenging in tiered workspaces, where occlusion, narrow clearances, and height-dependent constraints are substantially stronger than in open tabletop scenes. Most existing methods are evaluated in relatively unoccluded settings and typically do not explicitly model the distinct control requirements of arm navigation and hand articulation under spatial constraints. We present SpaceDex, a hierarchical framework for dexterous manipulation in constrained 3D environments. At the high level, a Vision-Language Model (VLM) planner parses user intent, reasons about occlusion and height relations across multiple camera views, and generates target bounding boxes for zero-shot segmentation and mask tracking. This stage provides structured spatial guidance for downstream control instead of relying on single-view target selection. At the low level, we introduce an arm-hand Feature Separation Network that decouples global trajectory control for the arm from geometry-aware grasp mode selection for the hand, reducing feature interference between reaching and grasping objectives. The controller further integrates multi-view perception, fingertip tactile sensing, and a small set of recovery demonstrations to improve robustness to partial observability and off-nominal contacts. In 100 real-world trials involving over 30 unseen objects across four categories, SpaceDex achieves a 63.0\% success rate, compared with 39.0\% for a strong tabletop baseline. These results indicate that combining hierarchical spatial planning with arm-hand representation decoupling improves dexterous grasping performance in spatially constrained environments.