MIND: Multi-Scale Intent Diffusion for Text-Driven Physics-Based Humanoid Control

📄 arXiv: 2605.26006v1 📥 PDF

作者: Bin Li, Ruichi Zhang, Han Liang, Jingyan Zhang, Juze Zhang, Xin Chen, Jingya Wang

分类: cs.CV, cs.GR, cs.RO

发布日期: 2026-05-25


💡 一句话要点

MIND:提出多尺度意图扩散模型,用于文本驱动的物理仿真人形控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 文本驱动控制 物理仿真 人形机器人 扩散模型 行为意图 多尺度学习 运动生成

📋 核心要点

  1. 现有方法在文本驱动的物理仿真人形控制中,难以有效对齐文本命令和低级动作之间的模态差距,限制了语义理解。
  2. MIND利用行为意图作为语义桥梁,提出多尺度意图扩散机制,通过全局和局部意图预测器指导行为合成和细化。
  3. 实验结果表明,MIND能够合成连贯、物理上合理且语义对齐的人形行为,优于现有方法。

📝 摘要(中文)

本文提出了一种名为MIND的新型端到端扩散框架,用于文本驱动的物理仿真人形控制。现有方法要么采用两阶段范式,将运动学运动生成与物理跟踪相结合,要么采用端到端模仿学习范式,直接从文本生成动作。然而,前者存在运动学生成和物理跟踪之间的固有领域转移问题,而后者难以有效对齐文本命令和低级动作之间巨大的模态差距。MIND利用行为意图作为文本命令和低级动作之间的语义桥梁,引入多尺度意图扩散机制,其中整体意图预测器捕获全局行为动态以指导整体行为合成,而即时意图预测器在每个扩散步骤提供逐步的、细粒度的信号以进行局部行为细化。此外,MIND将人形状态编码到潜在空间中,以实现更有效的语义意图建模。实验表明,MIND优于现有方法,并从文本命令中合成连贯、物理上合理且语义对齐的人形行为。

🔬 方法详解

问题定义:现有文本驱动的物理仿真人形控制方法,要么是两阶段方法,存在运动学生成和物理跟踪之间的领域差异;要么是端到端模仿学习,难以对齐文本命令和低级动作之间的模态差距。这些方法无法有效地将文本语义转化为物理上可行的人形动作。

核心思路:论文的核心思路是将人形状态作为行为意图的载体,因为人形状态编码了丰富的运动动态,与文本描述在语义上更对齐。通过学习文本到状态的映射,再从状态生成动作,可以有效弥合文本和动作之间的语义鸿沟。

技术框架:MIND框架包含文本编码器、状态编码器、多尺度意图扩散模型和动作解码器。文本编码器将文本命令转换为文本特征。状态编码器将人形状态编码到潜在空间。多尺度意图扩散模型基于文本特征和当前状态,预测下一步的意图(状态)。动作解码器将预测的状态解码为低级动作。

关键创新:MIND的关键创新在于多尺度意图扩散机制。它包含两个意图预测器:整体意图预测器捕获全局行为动态,指导整体行为合成;即时意图预测器提供逐步的、细粒度的信号,用于局部行为细化。这种分层意图表示为人形控制引入了结构化的归纳偏置,提高了语义对齐和行为自然性。

关键设计:MIND使用扩散模型来预测意图(状态)。扩散模型通过逐步添加噪声,然后学习逆向去噪过程,从而生成新的状态。多尺度意图预测器通过不同的网络结构和损失函数进行训练。整体意图预测器使用Transformer网络,关注全局上下文。即时意图预测器使用MLP网络,关注局部细节。损失函数包括状态预测损失和动作模仿损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MIND在文本驱动的人形控制任务中优于现有方法。具体来说,MIND能够生成更连贯、物理上合理且语义对齐的人形行为。相较于基线方法,MIND在动作准确性和行为自然性方面均有显著提升。论文提供了定性和定量的实验结果,验证了MIND的有效性。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏、机器人等领域,实现更自然、智能的人机交互。例如,在虚拟现实游戏中,玩家可以通过文本命令控制虚拟角色的行为;在机器人领域,可以利用文本命令指导人形机器人完成复杂任务。该技术还有潜力应用于康复训练,通过文本指令引导患者进行特定动作。

📄 摘要(原文)

Enabling physics-based humanoids to execute diverse behaviors from high-level textual commands remains a significant challenge. Existing methods typically follow either a two-stage paradigm that combines kinematic motion generation with physics-based tracking, or an end-to-end imitation-learning paradigm that directly generates actions from text. However, the former suffers from the inherent domain shift between kinematic generation and physics-based tracking, while the latter struggles with the substantial modality gap between textual commands and low-level actions, limiting effective semantic alignment. Notably, humanoid states encode rich motion dynamics that are more semantically aligned with textual descriptions than low-level actions, making them a natural basis for deriving behavioral intent. Building upon this insight, we propose MIND, a novel end-to-end diffusion framework for text-driven physics-based humanoid control that leverages behavioral intent as a semantic bridge between textual commands and low-level actions. At its core, MIND introduces a multi-scale intent diffusion mechanism, where a holistic intent predictor captures global behavioral dynamics to guide overall behavior synthesis, while an immediate intent predictor provides step-wise, fine-grained signals for local behavior refinement at each diffusion step. This hierarchical intent formulation imposes a structured inductive bias for humanoid control, improving semantic alignment and behavioral naturalness. Furthermore, MIND encodes humanoid states into a latent space to enable more effective semantic intent modeling. Extensive experiments demonstrate that MIND outperforms existing methods and synthesizes coherent, physically plausible, and semantically aligned humanoid behaviors from text commands. Our code will be released to facilitate future research.