Closing the Motion Execution Gap: From Semantic Motion Task Constraints to Kinematic Control

📄 arXiv: 2605.12053v1 📥 PDF

作者: Simon Stelter, Vanessa Hassouna, Malte Huerkamp, Michael Beetz

分类: cs.RO

发布日期: 2026-05-12

备注: 9 pages, 8 figures, to be published in IJCAI 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出Giskard框架,利用运动状态图和lMPC解决语义约束到运动控制的难题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 机器人控制 运动规划 任务规划 运动状态图 模型预测控制

📋 核心要点

  1. 现有方法难以将高层语义约束转化为具体的机器人运动控制,导致运动执行与任务目标脱节。
  2. 论文提出使用运动状态图来表示复杂运动,并结合统一的可微运动学世界模型,实现运动规范和泛化。
  3. 通过在多个机器人平台上进行实验,验证了所提框架的跨平台可迁移性,并开源了Giskard框架。

📝 摘要(中文)

本文旨在解决运动执行鸿沟问题,即高层符号任务描述(使用语义约束)与可执行机器人运动之间的脱节。为此,我们引入了运动状态图,作为复杂运动的可执行符号表示,允许并行和顺序地任意安排运动约束、监视器或嵌套状态图。通过使用机器人和环境的统一可微运动学世界模型,实现了以世界为中心的运动规范和跨平台的泛化。运动执行通过基于lMPC的任务函数方法实现,其中使用加加速度(jerk)边界来确保任务切换期间的平滑过渡。通过在不同环境中运行的八个机器人平台上部署该方法,证明了其跨平台的可迁移性。所提出的框架名为Giskard,并已开源。

🔬 方法详解

问题定义:论文旨在解决“运动执行鸿沟”问题,即如何将高层、符号化的任务描述(例如,放置物体在桌子上)转化为机器人能够执行的底层运动控制指令。现有方法通常难以处理复杂的任务约束,且缺乏跨平台通用性,导致机器人难以在不同环境和不同机器人平台上执行相同的任务。

核心思路:论文的核心思路是使用运动状态图(Motion Statecharts)作为一种可执行的符号表示,来描述复杂的运动任务。运动状态图允许将运动约束、监视器和嵌套状态图以并行或串行的方式组合起来,从而灵活地表达复杂的任务逻辑。同时,利用统一的可微运动学世界模型,实现以世界为中心的运动规范,从而提高跨平台通用性。

技术框架:整体框架名为Giskard,其核心流程如下:首先,使用运动状态图描述高层任务。然后,利用统一的可微运动学世界模型将任务约束转化为优化问题。最后,使用基于lMPC(linear Model Predictive Control)的任务函数方法,生成平滑的机器人运动轨迹,并使用加加速度(jerk)边界来保证任务切换过程中的平滑性。框架包含运动状态图解析器、运动学世界模型、lMPC控制器等主要模块。

关键创新:最重要的技术创新点在于运动状态图的使用和统一的可微运动学世界模型。运动状态图提供了一种灵活且可执行的方式来描述复杂运动任务,而统一的世界模型则实现了跨平台通用性。与传统的基于规则或示教的方法相比,该方法更加灵活和通用。

关键设计:运动状态图的设计允许用户自定义运动约束和监视器,从而灵活地表达任务需求。lMPC控制器的关键在于任务函数的选择和加加速度(jerk)边界的设置,这些参数直接影响运动轨迹的平滑性和任务执行的准确性。统一的可微运动学世界模型需要精确地描述机器人和环境的几何和运动学属性,并保证其可微性,以便进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在八个不同的机器人平台上验证了Giskard框架的有效性,这些平台运行在不同的环境中。实验结果表明,该框架能够成功地将高层任务描述转化为可执行的机器人运动,并实现跨平台迁移。虽然论文中没有给出具体的性能数据,但跨平台部署的成功本身就证明了该框架的通用性和实用性。

🎯 应用场景

该研究成果可应用于各种机器人自动化场景,例如工业装配、物流搬运、家庭服务等。通过Giskard框架,用户可以更容易地定义复杂的机器人任务,并将其部署到不同的机器人平台上。该框架有望降低机器人应用的开发成本,并提高机器人的智能化水平,促进人机协作。

📄 摘要(原文)

This paper addresses the Motion Execution Gap, the disconnect between high-level symbolic task descriptions using semantic constraints and executable robot motions. Motion Statecharts are introduced as an executable symbolic representation for complex motions. They allow the arbitrary arrangement of motion constraints, monitors or nested statecharts in parallel and sequence. World-centric motion specification and generalization across embodiments are enabled through the use of a unified differentiable kinematic world model of both, robots and environments. Motion execution is realized through a lMPC-based implementation of the task-function approach, in which smooth transitions during task switches are ensured using jerk bounds. Cross-platform transferability was demonstrated by deploying the method on eight robot platforms, operating in diverse environments. The proposed framework is called Giskard and is available open source: https://github.com/cram2/cognitive_robot_abstract_machine.