ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

📄 arXiv: 2604.27711v1 📥 PDF

作者: Yanghao Zhou, Jingyu Ma, Yibo Peng, Zhenguo Sun, Yu Bai, Börje F. Karlsson

分类: cs.RO

发布日期: 2026-04-30

备注: Work in progress. Project page: https://baai-agents.github.io/ExoActor/


💡 一句话要点

ExoActor:利用第三人称视频生成实现通用人形机器人交互控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人形机器人控制 视频生成 交互建模 运动估计 通用机器人智能

📋 核心要点

  1. 现有机器人控制系统难以捕捉机器人与环境、物体间交互的复杂时空动态,限制了其通用性。
  2. ExoActor利用第三人称视频生成建模交互动态,将任务指令和场景上下文转化为可执行的机器人行为。
  3. 该框架无需额外真实数据即可泛化到新场景,为通用人形机器人智能提供了一种可扩展的方法。

📝 摘要(中文)

近年来,人形机器人控制系统取得了显著进展,但如何建模机器人、周围环境和任务相关对象之间流畅且交互丰富的行为仍然是一个根本性的挑战。这一困难源于需要大规模地联合捕获空间上下文、时间动态、机器人动作和任务意图,这与传统的监督方式不太匹配。我们提出了ExoActor,这是一个新颖的框架,它利用大规模视频生成模型的泛化能力来解决这个问题。ExoActor的关键在于使用第三人称视频生成作为建模交互动态的统一接口。给定任务指令和场景上下文,ExoActor合成合理的执行过程,这些过程隐式地编码了机器人、环境和对象之间的协调交互。然后,通过一个估计人体运动并通过通用运动控制器执行它的流程,将这种视频输出转换为可执行的人形机器人行为,从而产生任务条件下的行为序列。为了验证所提出的框架,我们将其实现为一个端到端系统,并展示了其在没有额外真实世界数据收集的情况下泛化到新场景的能力。最后,我们讨论了当前实现的局限性,并概述了未来研究的有希望的方向,说明了ExoActor如何提供一种可扩展的方法来建模交互丰富的人形机器人行为,从而可能为生成模型推进通用人形机器人智能开辟一条新途径。

🔬 方法详解

问题定义:现有的人形机器人控制系统难以有效地建模机器人与其周围环境以及任务相关对象之间复杂的交互行为。传统的监督方法难以同时捕捉空间上下文、时间动态、机器人动作和任务意图,导致系统泛化能力不足,难以适应新的场景和任务。

核心思路:ExoActor的核心思路是将第三人称视频生成作为建模交互动态的统一接口。通过生成包含机器人、环境和对象交互的视频,隐式地编码了任务执行过程中的复杂关系。这种方法利用了大规模视频生成模型的泛化能力,使得机器人能够学习到更加通用和灵活的交互行为。

技术框架:ExoActor框架主要包含以下几个阶段:1) 任务指令和场景上下文输入;2) 使用视频生成模型合成第三人称视角的执行过程视频,该视频展示了机器人与环境和对象的交互;3) 通过运动估计模块将生成的视频转换为人体运动序列;4) 使用通用运动控制器将人体运动序列转化为可执行的机器人行为。整个流程是一个端到端的系统,可以根据任务指令和场景上下文生成相应的机器人行为。

关键创新:ExoActor的关键创新在于将视频生成模型引入到人形机器人控制领域,并将其作为建模交互动态的统一接口。与传统的基于规则或优化的控制方法不同,ExoActor通过学习大量视频数据,能够生成更加自然和流畅的机器人行为。此外,该框架还具有良好的泛化能力,可以适应新的场景和任务。

关键设计:ExoActor的关键设计包括:1) 使用大规模视频生成模型,例如基于Transformer的模型,来生成高质量的交互视频;2) 设计有效的运动估计模块,将视频中的人体运动准确地提取出来;3) 使用通用的运动控制器,将人体运动转化为机器人可执行的动作。具体的参数设置、损失函数和网络结构等细节取决于所使用的视频生成模型和运动估计模块。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ExoActor在仿真环境中进行了验证,结果表明该框架能够生成合理的机器人交互行为,并且具有良好的泛化能力。在没有额外真实世界数据收集的情况下,ExoActor能够适应新的场景和任务。虽然论文中没有提供具体的性能数据,但实验结果表明ExoActor为通用人形机器人智能提供了一种有前景的解决方案。

🎯 应用场景

ExoActor具有广泛的应用前景,例如在智能制造、家庭服务、医疗康复等领域。它可以用于开发能够自主完成复杂任务的机器人,例如装配零件、清洁房间、辅助病人等。此外,该框架还可以用于生成虚拟环境中的机器人行为,用于训练和评估机器人控制算法,加速机器人技术的研发。

📄 摘要(原文)

Humanoid control systems have made significant progress in recent years, yet modeling fluent interaction-rich behavior between a robot, its surrounding environment, and task-relevant objects remains a fundamental challenge. This difficulty arises from the need to jointly capture spatial context, temporal dynamics, robot actions, and task intent at scale, which is a poor match to conventional supervision. We propose ExoActor, a novel framework that leverages the generalization capabilities of large-scale video generation models to address this problem. The key insight in ExoActor is to use third-person video generation as a unified interface for modeling interaction dynamics. Given a task instruction and scene context, ExoActor synthesizes plausible execution processes that implicitly encode coordinated interactions between robot, environment, and objects. Such video output is then transformed into executable humanoid behaviors through a pipeline that estimates human motion and executes it via a general motion controller, yielding a task-conditioned behavior sequence. To validate the proposed framework, we implement it as an end-to-end system and demonstrate its generalization to new scenarios without additional real-world data collection. Furthermore, we conclude by discussing limitations of the current implementation and outlining promising directions for future research, illustrating how ExoActor provides a scalable approach to modeling interaction-rich humanoid behaviors, potentially opening a new avenue for generative models to advance general-purpose humanoid intelligence.