Before the Body Moves: Learning Anticipatory Joint Intent for Language-Conditioned Humanoid Control

📄 arXiv: 2605.14417v1 📥 PDF

作者: Haozhe Jia, Honglei Jin, Yuan Zhang, Youcheng Fan, Shaofeng Liang, Lei Wang, Shuxu Jin, Kuimou Yu, Zinuo Zhang, Jianfei Song, Wenshuo Chen, Yutao Yue

分类: cs.RO, cs.CV

发布日期: 2026-05-14


💡 一句话要点

DAJI:学习语言条件下的拟人机器人控制的预判性关节意图

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 拟人机器人控制 自然语言控制 预判性控制 关节意图 扩散模型 分层控制 强化学习

📋 核心要点

  1. 现有语言控制的拟人机器人系统缺乏对未来动作的预判性,导致控制效果不佳,难以应对复杂的物理交互。
  2. DAJI框架通过学习预判性的关节意图接口,将语言生成与闭环控制相结合,从而实现更流畅和自然的机器人控制。
  3. 实验结果表明,DAJI在各种任务中都取得了显著的成功,包括HumanML3D风格的生成和BABEL数据集上的动作生成。

📝 摘要(中文)

自然语言是拟人机器人的直观界面,但流式全身控制需要既可立即执行又能预测未来物理转换的控制表示。现有的语言条件拟人系统通常生成运动学参考,需要低级跟踪器被动修复,或者使用隐式/动作策略,其输出没有明确编码即将发生的接触变化、支撑转移和平衡准备。我们提出了DAJI(动力学对齐关节意图),这是一个分层框架,学习语言生成和闭环控制之间的预判性关节意图接口。DAJI-Act通过学生驱动的rollout将具有未来意识的教师模型提炼成可部署的扩散动作策略,而DAJI-Flow从语言和意图历史记录中自回归地生成未来意图块。实验表明,DAJI在预判性潜在学习、单指令生成和流式指令跟随方面取得了显著成果,在HumanML3D风格生成中达到了94.42%的rollout成功率,在BABEL上达到了0.152的子序列FID。

🔬 方法详解

问题定义:现有语言条件下的拟人机器人控制方法,要么依赖于低级跟踪器被动修复运动学参考,要么使用无法明确编码未来接触变化、支撑转移和平衡准备的隐式策略。这些方法缺乏对未来动作的预判性,导致控制效果不佳,难以应对复杂的物理交互。

核心思路:DAJI的核心思路是学习一个预判性的关节意图接口,该接口能够将语言指令转化为机器人未来动作的规划。通过预测未来一段时间内的关节意图,机器人可以提前准备好必要的动作,从而实现更流畅和自然的控制。

技术框架:DAJI是一个分层框架,包含两个主要模块:DAJI-Flow和DAJI-Act。DAJI-Flow负责从语言指令和历史意图中自回归地生成未来意图块。DAJI-Act则将具有未来意识的教师模型提炼成可部署的扩散动作策略,用于执行具体的机器人动作。

关键创新:DAJI的关键创新在于引入了“动力学对齐关节意图”的概念,并设计了相应的学习框架。这种方法能够显式地建模未来动作的动力学信息,从而提高机器人控制的预判性和鲁棒性。此外,使用扩散模型作为动作策略,能够生成更多样化的动作。

关键设计:DAJI-Flow使用Transformer架构,以语言指令和历史意图作为输入,预测未来意图。DAJI-Act使用扩散模型,以当前状态和未来意图作为条件,生成动作序列。DAJI-Act的训练采用学生驱动的rollout方式,通过与环境交互不断优化策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DAJI在HumanML3D风格生成中达到了94.42%的rollout成功率,显著优于现有方法。在BABEL数据集上,DAJI达到了0.152的子序列FID,表明其生成的动作序列更加自然和流畅。这些实验结果表明,DAJI在预判性潜在学习、单指令生成和流式指令跟随方面取得了显著成果。

🎯 应用场景

DAJI框架可应用于各种需要自然语言控制的拟人机器人任务,例如家庭服务、医疗辅助、工业自动化等。通过DAJI,用户可以使用自然语言指令控制机器人完成复杂的动作,而无需编写复杂的程序。该研究有望推动人机交互技术的发展,使机器人更加智能化和易于使用。

📄 摘要(原文)

Natural language is an intuitive interface for humanoid robots, yet streaming whole-body control requires control representations that are executable now and anticipatory of future physical transitions. Existing language-conditioned humanoid systems typically generate kinematic references that a low-level tracker must repair reactively, or use latent/action policies whose outputs do not explicitly encode upcoming contact changes, support transfers, and balance preparation. We propose \textbf{DAJI} (\emph{Dynamics-Aligned Joint Intent}), a hierarchical framework that learns an anticipatory joint-intent interface between language generation and closed-loop control. DAJI-Act distills a future-aware teacher into a deployable diffusion action policy through student-driven rollouts, while DAJI-Flow autoregressively generates future intent chunks from language and intent history. Experiments show that DAJI achieves strong results in anticipatory latent learning, single-instruction generation, and streaming instruction following, reaching 94.42\% rollout success on HumanML3D-style generation and 0.152 subsequence FID on BABEL.