Toward Hardware-Agnostic Quadrupedal World Models via Morphology Conditioning
作者: Mohamad H. Danesh, Chenhao Li, Amin Abyaneh, Anas Houssaini, Kirsty Ellis, Glen Berseth, Marco Hutter, Hsiu-Chin Lin
分类: cs.RO, cs.LG
发布日期: 2026-04-09
💡 一句话要点
提出基于形态条件化的四足机器人世界模型,实现硬件无关的通用运动控制。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 四足机器人 世界模型 形态条件化 零样本学习 通用运动控制
📋 核心要点
- 现有世界模型对特定机器人硬件过度拟合,缺乏跨不同形态的泛化能力,限制了其应用范围。
- 论文提出一种基于形态条件化的四足机器人世界模型(QWM),显式地将机器人形态信息融入到动力学模型中。
- 实验表明,QWM能够实现对新形态机器人的零样本控制,显著提升了世界模型的泛化性能。
📝 摘要(中文)
世界模型有望变革机器人领域,使智能体通过一次性学习环境底层物理特性,实现高效规划和行为学习。然而,当前的世界模型通常是硬件锁定的专家模型。由于运动学和动力学属性的差异,在波士顿动力Spot机器人上训练的模型在宇树Go1上会彻底失效,因为模型过度拟合了特定的机器人约束,而非捕获通用的运动动力学。因此,执行器动力学或肢体长度的微小变化都需要从头开始训练新模型。本文提出了一种训练通用四足机器人世界模型(QWM)的框架,该框架将环境动力学与机器人形态解耦。我们解决了隐式系统识别的局限性,即把静态物理属性(如质量或肢体长度)作为潜在变量,从运动历史中推断,这会造成适应滞后,从而损害零样本安全性和效率。相反,我们显式地将生成动力学与机器人的工程规范相关联。通过集成物理形态编码器和奖励归一化器,我们使模型能够作为神经模拟器,从而实现跨形态的泛化。这种能力解锁了跨一系列形态的零样本控制。我们首次引入了一种世界模型,该模型能够为运动提供对新形态的零样本泛化。虽然我们仔细研究了我们方法的局限性,但QWM作为四足动物形态家族中的分布有界插值器而不是通用物理引擎运行,但这项工作代表了腿式运动形态条件世界模型的重要一步。
🔬 方法详解
问题定义:现有四足机器人世界模型通常针对特定硬件进行训练,无法泛化到具有不同形态(如肢体长度、质量分布)的机器人上。这种硬件锁定限制了世界模型的应用范围,每次更换机器人平台都需要重新训练模型。现有方法将机器人形态作为隐变量进行推断,存在适应滞后问题,影响零样本控制的安全性和效率。
核心思路:论文的核心思路是将机器人形态信息显式地融入到世界模型中,使模型能够理解不同形态对运动动力学的影响。通过将形态信息作为条件输入,模型可以学习到与形态无关的通用运动规律,从而实现跨形态的泛化。
技术框架:QWM包含以下主要模块:1) 物理形态编码器:将机器人的工程规范(如肢体长度、质量分布)编码为形态向量。2) 生成动力学模型:基于形态向量和当前状态,预测下一步状态。3) 奖励归一化器:根据形态信息对奖励进行归一化,提高训练的稳定性。整体流程是:首先,物理形态编码器将机器人形态编码为向量;然后,生成动力学模型根据当前状态和形态向量预测下一步状态;最后,奖励归一化器对奖励进行归一化,用于训练生成动力学模型。
关键创新:最重要的技术创新点是显式地将机器人形态信息融入到世界模型中。与现有方法将形态作为隐变量推断不同,QWM直接将形态信息作为条件输入,使模型能够更好地理解形态对运动动力学的影响。这种显式建模方式避免了适应滞后问题,提高了零样本控制的安全性和效率。
关键设计:物理形态编码器可以使用简单的全连接网络或更复杂的图神经网络。生成动力学模型可以使用循环神经网络(RNN)或Transformer等序列模型。奖励归一化器可以使用简单的线性变换或更复杂的非线性函数。损失函数通常包括状态预测误差和奖励预测误差。关键参数包括形态向量的维度、RNN的隐藏层大小、学习率等。
🖼️ 关键图片
📊 实验亮点
论文首次提出了一种能够对新形态机器人进行零样本控制的四足机器人世界模型。实验结果表明,QWM能够成功地将在一个形态的机器人上学习到的策略迁移到另一个形态的机器人上,而无需进行任何额外的训练。这表明QWM具有很强的泛化能力,能够有效地解耦环境动力学和机器人形态。
🎯 应用场景
该研究成果可应用于四足机器人的通用运动控制、机器人设计优化和虚拟环境仿真等领域。通过训练一个能够泛化到不同形态的四足机器人世界模型,可以降低机器人开发成本,提高开发效率,并促进四足机器人在复杂环境中的应用。此外,该模型还可以用于机器人设计优化,通过仿真评估不同形态机器人的性能,从而指导机器人设计。
📄 摘要(原文)
World models promise a paradigm shift in robotics, where an agent learns the underlying physics of its environment once to enable efficient planning and behavior learning. However, current world models are often hardware-locked specialists: a model trained on a Boston Dynamics Spot robot fails catastrophically on a Unitree Go1 due to the mismatch in kinematic and dynamic properties, as the model overfits to specific embodiment constraints rather than capturing the universal locomotion dynamics. Consequently, a slight change in actuator dynamics or limb length necessitates training a new model from scratch. In this work, we take a step towards a framework for training a generalizable Quadrupedal World Model (QWM) that disentangles environmental dynamics from robot morphology. We address the limitations of implicit system identification, where treating static physical properties (like mass or limb length) as latent variables to be inferred from motion history creates an adaptation lag that can compromise zero-shot safety and efficiency. Instead, we explicitly condition the generative dynamics on the robot's engineering specifications. By integrating a physical morphology encoder and a reward normalizer, we enable the model to serve as a neural simulator capable of generalizing across morphologies. This capability unlocks zero-shot control across a range of embodiments. We introduce, for the first time, a world model that enables zero-shot generalization to new morphologies for locomotion. While we carefully study the limitations of our method, QWM operates as a distribution-bounded interpolator within the quadrupedal morphology family rather than a universal physics engine, this work represents a significant step toward morphology-conditioned world models for legged locomotion.