GenerativeMPC: VLM-RAG-guided Whole-Body MPC with Virtual Impedance for Bimanual Mobile Manipulation

📄 arXiv: 2604.19522v1 📥 PDF

作者: Marcelino Julio Fernando, Miguel Altamirano Cabrera, Jeffrin Sam, Yara Mahmoud, Konstantin Gubernatorov, Dzmitry Tsetserukou

分类: cs.RO

发布日期: 2026-04-21

备注: 6 pages, 7 figures


💡 一句话要点

GenerativeMPC:VLM-RAG引导的双臂移动操作机器人全身MPC与虚拟阻抗控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 双臂移动操作 视觉语言模型 模型预测控制 人机交互 阻抗控制

📋 核心要点

  1. 现有端到端模型在双臂移动操作中缺乏透明性,传统控制器缺乏上下文感知能力,难以实现语义推理与安全物理交互的无缝集成。
  2. GenerativeMPC利用VLM-RAG将视觉和语言信息转化为MPC的约束和阻抗控制器的参数,实现上下文感知的安全操作。
  3. 实验表明,GenerativeMPC在人机交互中能有效降低机器人速度,并在仿真和真实机器人平台上实现了安全、具有社会意识的导航和操作。

📝 摘要(中文)

本文提出GenerativeMPC,一个分层控制框架,显式地将语义场景理解与双臂移动操作机器人的物理控制参数联系起来。该系统利用带有检索增强生成(VLM-RAG)的视觉语言模型,将视觉和语言上下文转换为具体的控制约束,特别是输出全身模型预测控制器(MPC)的动态速度限制和安全裕度。同时,VLM-RAG模块为统一的阻抗-导纳控制器调节虚拟刚度和阻尼增益,从而在人机交互期间实现上下文感知的顺应性。该框架利用经验驱动的向量数据库,以确保一致的参数基础,而无需重新训练。在MuJoCo、IsaacSim和物理双臂平台上的实验结果证实,在人类附近速度降低60%,并通过语义到物理参数的连接实现安全、具有社会意识的导航和操作。这项工作通过将大规模认知模型融入可预测的高频物理控制回路,推进了以人为中心的控制领域。

🔬 方法详解

问题定义:双臂移动操作机器人需要在复杂环境中安全、顺应性地执行任务,同时理解人类意图并避免碰撞。现有方法要么是端到端的黑盒模型,缺乏可解释性,要么是传统的控制方法,无法有效利用场景的语义信息,难以实现安全的人机协作。

核心思路:核心在于利用视觉语言模型(VLM)和检索增强生成(RAG)技术,将高层次的语义信息转化为底层的控制参数,从而使机器人能够根据环境和任务动态调整其行为。通过将语义理解与物理控制解耦,提高了系统的可解释性和安全性。

技术框架:GenerativeMPC是一个分层控制框架,包含以下主要模块:1) VLM-RAG模块:负责解析视觉和语言输入,生成MPC的动态速度限制、安全裕度以及阻抗控制器的虚拟刚度和阻尼增益。2) 全身模型预测控制器(MPC):根据VLM-RAG提供的约束,优化机器人的运动轨迹。3) 阻抗-导纳控制器:实现机器人与环境的顺应性交互。4) 经验驱动的向量数据库:存储历史经验,用于RAG模块的检索,保证参数 grounding 的一致性。

关键创新:关键创新在于将VLM-RAG模块与传统的MPC和阻抗控制相结合,实现了语义信息到物理控制参数的显式映射。这种方法避免了端到端模型的黑盒特性,提高了系统的可解释性和安全性。同时,利用经验驱动的向量数据库,保证了参数 grounding 的一致性,避免了重新训练的需要。

关键设计:VLM-RAG模块使用预训练的视觉语言模型,并结合检索增强生成技术,从经验数据库中检索相关信息,生成控制参数。MPC采用全身动力学模型,并根据VLM-RAG提供的约束进行优化。阻抗控制器根据VLM-RAG提供的虚拟刚度和阻尼增益,调整机器人的顺应性。经验数据库使用向量嵌入技术存储历史经验,并使用相似度搜索进行检索。具体的参数设置和损失函数细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GenerativeMPC在人机交互中能有效降低机器人速度,在人类附近速度降低了60%,从而提高了安全性。此外,在MuJoCo、IsaacSim和物理双臂平台上的实验证实,该系统能够实现安全、具有社会意识的导航和操作。这些结果表明,GenerativeMPC能够有效地将语义信息转化为物理控制参数,从而实现更安全、更智能的人机协作。

🎯 应用场景

该研究成果可应用于人机协作的工业机器人、服务机器人等领域。例如,在制造业中,机器人可以根据工人的动作和意图,动态调整其运动轨迹和力度,避免碰撞,提高生产效率。在家庭服务中,机器人可以根据用户的指令和环境信息,安全地执行任务,例如清洁、搬运物品等。未来,该技术有望应用于更复杂的场景,例如医疗康复、灾难救援等。

📄 摘要(原文)

Bimanual mobile manipulation requires a seamless integration between high-level semantic reasoning and safe, compliant physical interaction - a challenge that end-to-end models approach opaquely and classical controllers lack the context to address. This paper presents GenerativeMPC, a hierarchical cyber-physical framework that explicitly bridges semantic scene understanding with physical control parameters for bimanual mobile manipulators. The system utilizes a Vision-Language Model with Retrieval-Augmented Generation (VLM-RAG) to translate visual and linguistic context into grounded control constraints, specifically outputting dynamic velocity limits and safety margins for a Whole-Body Model Predictive Controller (MPC). Simultaneously, the VLM-RAG module modulates virtual stiffness and damping gains for a unified impedance-admittance controller, enabling context-aware compliance during human-robot interaction. Our framework leverages an experience-driven vector database to ensure consistent parameter grounding without retraining. Experimental results in MuJoCo, IsaacSim, and on a physical bimanual platform confirm a 60% speed reduction near humans and safe, socially-aware navigation and manipulation through semantic-to-physical parameter grounding. This work advances the field of human-centric cybernetics by grounding large-scale cognitive models into predictable, high-frequency physical control loops.