Language-Driven Closed-Loop Grasping with Model-Predictive Trajectory Replanning
作者: Huy Hoang Nguyen, Minh Nhat Vu, Florian Beck, Gerald Ebmer, Anh Nguyen, Andreas Kugi
分类: cs.RO
发布日期: 2024-06-13 (更新: 2024-06-19)
备注: 9 pages, 6 figures
💡 一句话要点
提出一种基于语言驱动的闭环抓取框架,实现动态环境下实时轨迹重规划
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 语言驱动抓取 闭环控制 模型预测控制 在线轨迹规划 6D姿态估计 动态环境 零样本学习
📋 核心要点
- 现有方法难以在动态环境中,协调视觉模块与闭环控制系统的不一致更新频率,从而实现机器人操作的无缝运动。
- 该论文提出一种模块化的零样本框架,利用视觉语言模型进行物体分割,并结合闭环控制和在线轨迹规划实现动态抓取。
- 实验结果表明,该框架能够实时准确地抓取移动物体,在线6D姿态定位模块更新速率高达30Hz,轨迹优化模块更新速率达10Hz。
📝 摘要(中文)
本文提出了一种模块化的零样本框架,用于通过闭环控制系统和实时轨迹重规划,实现对(动态)物体的语言驱动操作。该框架利用视觉语言模型,通过语言命令在0.5秒内分割物体。然后,在自然语言命令的引导下,一个闭环系统(包括统一的姿态估计与跟踪和在线轨迹规划)被用于连续跟踪该物体,并实时计算最优轨迹。所提出的零样本框架提供了一个平滑的轨迹,避免了急动运动,并确保机器人能够抓取非静止物体。实验结果表明,该零样本模块化框架具有实时性,轨迹优化模块能够准确有效地抓取移动物体,在线6D姿态定位模块的更新速率高达30Hz,后退视界轨迹优化模块的更新速率高达10Hz。这些优势突出了该模块化框架在机器人和人机交互中的潜在应用。
🔬 方法详解
问题定义:论文旨在解决动态环境下,机器人如何根据自然语言指令,实时抓取移动物体的问题。现有方法在处理动态环境和视觉信息与控制系统集成方面存在挑战,例如更新频率不一致导致的控制不稳定,以及难以适应新的物体和环境。
核心思路:论文的核心思路是将视觉语言模型用于物体分割,然后利用闭环控制系统和在线轨迹规划,根据语言指令实时调整机器人的运动轨迹,从而实现对动态物体的准确抓取。这种方法能够将视觉感知与运动控制紧密结合,提高机器人在复杂环境中的适应性和鲁棒性。
技术框架:该框架主要包含以下几个模块:1) 视觉语言模型:用于根据自然语言指令分割目标物体;2) 6D姿态估计与跟踪模块:用于实时估计和跟踪目标物体的6D姿态;3) 在线轨迹规划模块:根据目标物体的姿态和运动状态,实时生成最优的机器人运动轨迹;4) 闭环控制系统:根据轨迹规划结果,控制机器人运动,并根据视觉反馈进行调整。整个流程是一个闭环系统,能够实时响应环境变化。
关键创新:该论文的关键创新在于将视觉语言模型与闭环控制系统相结合,实现了一种零样本的语言驱动抓取框架。这种框架无需针对特定物体进行训练,能够直接根据自然语言指令抓取新的物体。此外,该框架还采用了在线轨迹规划技术,能够实时调整机器人的运动轨迹,从而适应动态环境。
关键设计:视觉语言模型采用预训练模型,并针对抓取任务进行微调。6D姿态估计与跟踪模块采用卡尔曼滤波等方法,对目标物体的姿态进行平滑估计。在线轨迹规划模块采用模型预测控制(MPC)方法,根据目标物体的运动状态和机器人的运动学约束,生成最优的运动轨迹。损失函数的设计考虑了轨迹的平滑性、抓取的准确性和避障等因素。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架能够实时准确地抓取移动物体,在线6D姿态定位模块的更新速率高达30Hz,后退视界轨迹优化模块的更新速率达10Hz。这些数据表明该框架具有很高的实时性和鲁棒性,能够满足实际应用的需求。此外,该框架还具有零样本学习能力,无需针对特定物体进行训练,即可根据自然语言指令抓取新的物体。
🎯 应用场景
该研究成果可应用于自动化生产线、物流分拣、家庭服务机器人等领域。例如,在自动化生产线上,机器人可以根据操作人员的语音指令,抓取并组装不同的零部件。在家庭服务领域,机器人可以根据用户的语言指令,整理房间、清洁物品等。该研究有助于提高机器人的智能化水平和人机交互能力。
📄 摘要(原文)
Combining a vision module inside a closed-loop control system for a \emph{seamless movement} of a robot in a manipulation task is challenging due to the inconsistent update rates between utilized modules. This task is even more difficult in a dynamic environment, e.g., objects are moving. This paper presents a \emph{modular} zero-shot framework for language-driven manipulation of (dynamic) objects through a closed-loop control system with real-time trajectory replanning and an online 6D object pose localization. We segment an object within $\SI{0.5}{\second}$ by leveraging a vision language model via language commands. Then, guided by natural language commands, a closed-loop system, including a unified pose estimation and tracking and online trajectory planning, is utilized to continuously track this object and compute the optimal trajectory in real-time. Our proposed zero-shot framework provides a smooth trajectory that avoids jerky movements and ensures the robot can grasp a non-stationary object. Experiment results exhibit the real-time capability of the proposed zero-shot modular framework for the trajectory optimization module to accurately and efficiently grasp moving objects, i.e., up to \SI{30}{\hertz} update rates for the online 6D pose localization module and \SI{10}{\hertz} update rates for the receding-horizon trajectory optimization. These advantages highlight the modular framework's potential applications in robotics and human-robot interaction; see the video in https://www.acin.tuwien.ac.at/en/6e64/.