UniAct: Unified Motion Generation and Action Streaming for Humanoid Robots

📄 arXiv: 2512.24321v1 📥 PDF

作者: Nan Jiang, Zimo He, Wanhe Yu, Lexi Pang, Yunhao Li, Hongjie Li, Jieming Cui, Yuhan Li, Yizhou Wang, Yixin Zhu, Siyuan Huang

分类: cs.CV, cs.RO

发布日期: 2025-12-30

备注: Project page: https://jnnan.github.io/uniact/


💡 一句话要点

UniAct:用于人形机器人的统一运动生成与动作流式传输

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人形机器人 多模态学习 运动生成 动作流式传输 大型语言模型 实时控制 跨模态对齐

📋 核心要点

  1. 现有方法难以将语言、音乐、轨迹等异构指令转化为人形机器人稳定、实时的动作。
  2. UniAct通过微调MLLM和因果流式传输管道,实现了多模态指令到动作的快速转换。
  3. UniAct在UniMoCap基准测试中表现出强大的泛化能力,零样本跟踪成功率提升19%。

📝 摘要(中文)

人形机器人领域的一个长期目标是实现能够以人类水平的灵活性执行各种多模态指令的通用智能体。尽管人形机器人控制取得了进展,但将高级多模态感知与全身执行连接起来仍然是一个重要的瓶颈。现有方法通常难以将异构指令(如语言、音乐和轨迹)转化为稳定、实时的动作。本文展示了UniAct,一个集成了微调的多模态大型语言模型(MLLM)与因果流式传输管道的两阶段框架,使人形机器人能够以低于500毫秒的延迟执行多模态指令。通过使用FSQ共享离散码本统一输入,UniAct确保了跨模态对齐,同时将运动约束在物理上合理的流形中。这种方法使不完美的参考运动的零样本跟踪成功率提高了19%。我们在UniMoCap(我们20小时的人形机器人运动基准)上验证了UniAct,证明了其在各种真实场景中的鲁棒泛化能力。我们的结果标志着在响应迅速、通用的、能够通过统一的感知和控制进行无缝交互的人形助手方面迈出了关键一步。

🔬 方法详解

问题定义:论文旨在解决人形机器人如何高效、稳定地执行多模态指令的问题。现有方法在处理异构输入时存在困难,难以实现实时控制,并且缺乏跨模态的有效对齐,导致动作生成不稳定或不自然。

核心思路:论文的核心思路是利用多模态大型语言模型(MLLM)理解和对齐不同模态的指令,并通过因果流式传输管道生成实时的机器人动作。通过共享的离散码本,将不同模态的信息映射到统一的表示空间,从而实现跨模态的对齐和融合。

技术框架:UniAct框架包含两个主要阶段:1) 多模态指令理解与编码:使用微调的MLLM处理语言、音乐和轨迹等输入,并通过FSQ(未知)量化器将它们编码为离散代码。2) 因果流式动作生成:利用因果模型根据编码后的指令序列生成连续的机器人动作。该管道以流式方式工作,保证了低延迟的实时控制。

关键创新:UniAct的关键创新在于:1) 统一的多模态表示:通过共享的离散码本,实现了不同模态信息的有效融合和对齐。2) 低延迟的流式动作生成:因果流式传输管道保证了亚秒级的响应速度,使得机器人能够实时地对指令做出反应。3) 基于MLLM的指令理解:利用MLLM强大的语言理解能力,提高了机器人对复杂指令的理解和执行能力。

关键设计:论文中使用了FSQ(未知)进行离散码本的构建,具体参数设置未知。损失函数的设计目标是最小化生成动作与目标动作之间的差异,同时保证动作的平滑性和物理可行性。MLLM的具体网络结构和微调策略未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniAct在UniMoCap基准测试中取得了显著的成果,零样本跟踪不完美的参考运动的成功率提高了19%。该框架能够以低于500毫秒的延迟执行多模态指令,证明了其在实时控制方面的优势。实验结果表明,UniAct具有强大的泛化能力,能够在各种真实场景中稳定运行。

🎯 应用场景

UniAct有望应用于各种人形机器人应用场景,例如家庭服务、医疗辅助、工业自动化等。它可以使机器人能够理解和执行复杂的自然语言指令,响应音乐节奏进行舞蹈,或者模仿人类的运动轨迹。该研究为开发通用型人形机器人助手奠定了基础,使其能够通过统一的感知和控制与人类进行无缝交互。

📄 摘要(原文)

A long-standing objective in humanoid robotics is the realization of versatile agents capable of following diverse multimodal instructions with human-level flexibility. Despite advances in humanoid control, bridging high-level multimodal perception with whole-body execution remains a significant bottleneck. Existing methods often struggle to translate heterogeneous instructions -- such as language, music, and trajectories -- into stable, real-time actions. Here we show that UniAct, a two-stage framework integrating a fine-tuned MLLM with a causal streaming pipeline, enables humanoid robots to execute multimodal instructions with sub-500 ms latency. By unifying inputs through a shared discrete codebook via FSQ, UniAct ensures cross-modal alignment while constraining motions to a physically grounded manifold. This approach yields a 19% improvement in the success rate of zero-shot tracking of imperfect reference motions. We validate UniAct on UniMoCap, our 20-hour humanoid motion benchmark, demonstrating robust generalization across diverse real-world scenarios. Our results mark a critical step toward responsive, general-purpose humanoid assistants capable of seamless interaction through unified perception and control.