SPGrasp: Spatiotemporal Prompt-driven Grasp Synthesis in Dynamic Scenes

作者: Yunpeng Mei, Hongjie Cao, Yinqiu Xia, Wei Xiao, Zhaohan Feng, Gang Wang, Jie Chen

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-08-28 (更新: 2025-08-30)

💡 一句话要点

SPGrasp：时空提示驱动的动态场景抓取合成，实现低延迟交互

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 动态抓取合成 实时交互 用户提示 时空上下文 SAMv2 机器人操作 低延迟推理

📋 核心要点

现有动态物体抓取方法难以兼顾低延迟推理和用户可提示性，限制了实时交互应用。
SPGrasp通过集成用户提示和时空上下文，扩展SAMv2模型，实现动态场景下的实时抓取合成。
实验表明，SPGrasp在多个数据集上取得了优异的抓取精度和显著的延迟降低，并在真实场景中验证了有效性。

📝 摘要（中文）

本文提出SPGrasp，一种时空提示驱动的动态抓取合成框架，旨在解决动态物体实时交互抓取合成中低延迟和可提示性难以兼顾的问题。SPGrasp扩展了Segment Anything Model v2 (SAMv2)，用于视频流抓取估计，集成了用户提示和时空上下文信息，实现了低至59毫秒的端到端延迟实时交互，并保证了动态物体抓取的时序一致性。在基准测试中，SPGrasp在OCID和Jacquard数据集上分别实现了90.6%和93.8%的实例级抓取精度。在具有挑战性的GraspNet-1Billion数据集上进行连续跟踪时，SPGrasp实现了92.0%的精度，每帧延迟为73.1毫秒，与最先进的可提示方法RoG-SAM相比，延迟降低了58.5%，同时保持了具有竞争力的精度。在涉及13个移动物体的真实世界实验中，交互式抓取成功率为94.8%。实验结果表明，SPGrasp有效地解决了动态抓取合成中的延迟-交互性权衡问题。

🔬 方法详解

问题定义：现有方法在动态场景下进行实时交互式抓取合成时，面临着低延迟和用户可提示性之间的权衡问题。为了保证抓取精度，现有方法通常需要复杂的计算，导致延迟较高，难以满足实时交互的需求。同时，缺乏用户提示能力，使得抓取过程不够灵活，无法根据用户意图进行调整。

核心思路：SPGrasp的核心思路是将用户提示与时空上下文信息相结合，利用SAMv2强大的分割能力，并在此基础上进行扩展，以实现动态场景下的实时抓取合成。通过时空信息的融合，可以提高抓取的时序一致性，减少抖动，从而提高抓取的鲁棒性。

技术框架：SPGrasp的整体框架主要包括以下几个模块：1) 视频流输入；2) 用户提示输入（例如点击物体上的点）；3) 基于SAMv2的分割模块，用于提取目标物体的掩码；4) 时空上下文融合模块，用于平滑抓取结果并提高时序一致性；5) 抓取姿态估计模块，用于估计物体的最佳抓取姿态。整个流程是端到端的，可以实现低延迟的实时抓取合成。

关键创新：SPGrasp的关键创新在于将用户提示与时空上下文信息相结合，并将其集成到SAMv2中，从而实现了动态场景下的实时交互式抓取合成。与现有方法相比，SPGrasp不仅具有更低的延迟，而且具有更强的用户可提示性。此外，SPGrasp还通过时空上下文融合模块，提高了抓取的时序一致性。

关键设计：SPGrasp的关键设计包括：1) 使用SAMv2作为分割模块，利用其强大的分割能力；2) 设计时空上下文融合模块，用于平滑抓取结果并提高时序一致性，具体实现方式未知；3) 优化整个流程，以实现低延迟的实时推理。损失函数和网络结构的具体细节未知。

🖼️ 关键图片

📊 实验亮点

SPGrasp在OCID和Jacquard数据集上分别实现了90.6%和93.8%的实例级抓取精度。在GraspNet-1Billion数据集上，SPGrasp实现了92.0%的精度，每帧延迟为73.1毫秒，与RoG-SAM相比，延迟降低了58.5%。在真实世界实验中，交互式抓取成功率为94.8%。这些结果表明，SPGrasp在精度和延迟方面都取得了显著的提升。

🎯 应用场景

SPGrasp可应用于机器人自动化、智能制造、远程操作等领域。例如，在智能制造中，机器人可以根据操作员的指令，实时抓取和操作动态物体。在远程操作中，操作员可以通过视觉反馈和提示，控制远端机器人进行精确的抓取操作。该研究有望提升机器人与环境的交互能力，实现更智能、更高效的自动化。

📄 摘要（原文）

Real-time interactive grasp synthesis for dynamic objects remains challenging as existing methods fail to achieve low-latency inference while maintaining promptability. To bridge this gap, we propose SPGrasp (spatiotemporal prompt-driven dynamic grasp synthesis), a novel framework extending segment anything model v2 (SAMv2) for video stream grasp estimation. Our core innovation integrates user prompts with spatiotemporal context, enabling real-time interaction with end-to-end latency as low as 59 ms while ensuring temporal consistency for dynamic objects. In benchmark evaluations, SPGrasp achieves instance-level grasp accuracies of 90.6% on OCID and 93.8% on Jacquard. On the challenging GraspNet-1Billion dataset under continuous tracking, SPGrasp achieves 92.0% accuracy with 73.1 ms per-frame latency, representing a 58.5% reduction compared to the prior state-of-the-art promptable method RoG-SAM while maintaining competitive accuracy. Real-world experiments involving 13 moving objects demonstrate a 94.8% success rate in interactive grasping scenarios. These results confirm SPGrasp effectively resolves the latency-interactivity trade-off in dynamic grasp synthesis.

SPGrasp: Spatiotemporal Prompt-driven Grasp Synthesis in Dynamic Scenes

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理