EgoExo-WM: Unlocking Exo Video for Ego World Models

📄 arXiv: 2605.15477v1 📥 PDF

作者: Danny Tran, Roberto Martín-Martín, Kristen Grauman

分类: cs.CV

发布日期: 2026-05-14


💡 一句话要点

EgoExo-WM:利用外视角视频增强自视角世界模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 自视角世界模型 外视角视频 姿态估计 视角转换 机器人规划

📋 核心要点

  1. 自视角世界模型受限于自视角数据不足和部分可观察性,难以充分学习人类行为。
  2. 该论文提出EgoExo-WM方法,利用外视角视频提取身体姿态,并转换为自视角视频,从而扩充训练数据。
  3. 实验表明,使用该方法训练的世界模型在预测质量和下游规划任务上均有显著提升。

📝 摘要(中文)

自视角世界模型在智能体预测和规划方面展现出潜力,但其性能受限于自视角训练数据的稀缺性以及人类物理行为固有的部分可观察性。相比之下,外视角视频数据丰富,能很好地揭示人体姿态,但缺乏与智能体动作空间的直接对齐,且并非自视角。我们提出一种方法来弥合这一差距,从外视角视频中提取结构化的身体姿态作为动作的表示,并在人类运动学先验的指导下,将外视角视频转换为自视角视频。这一过程解锁了在野外视角数据用于自视角世界模型训练的可能性。我们证明,使用转换后的数据训练全身动作条件自视角世界模型,能显著提高预测质量和下游规划性能,其中我们推断实现视觉目标状态所需的身体姿态序列。我们的方法为利用任意在野视频构建强大的自视角世界模型铺平了道路,从而推动了机器人规划和增强现实指导等应用。

🔬 方法详解

问题定义:现有自视角世界模型训练面临数据稀缺和部分可观察性的挑战。自视角视频难以捕捉完整的身体姿态信息,限制了模型对人类行为的理解和预测能力。外视角视频虽然数据丰富且能较好地捕捉身体姿态,但与智能体的动作空间缺乏直接关联,无法直接用于自视角世界模型的训练。

核心思路:该论文的核心思路是将外视角视频中的身体姿态信息转化为自视角世界模型可以利用的形式。具体来说,首先从外视角视频中提取结构化的身体姿态作为动作的表示,然后利用人类运动学先验知识,将外视角视频转换为自视角视频。这样,就可以利用大量的外视角视频数据来增强自视角世界模型的训练,提高其性能。

技术框架:EgoExo-WM方法主要包含以下几个阶段:1) 外视角姿态估计:使用现有的姿态估计模型从外视角视频中提取人体姿态信息。2) 外视角到自视角转换:利用人类运动学先验知识,将外视角视频转换为自视角视频。这一步是关键,需要考虑视角变换、遮挡处理等问题。3) 自视角世界模型训练:使用转换后的自视角视频数据训练自视角世界模型。该模型以动作(身体姿态)为条件,预测未来的视觉状态。4) 下游任务评估:在下游规划任务中评估训练好的世界模型的性能。

关键创新:该论文的关键创新在于提出了一种将外视角视频数据转化为自视角世界模型训练数据的方法。与直接使用自视角视频数据相比,该方法可以利用大量的外视角视频数据,从而显著提高世界模型的性能。此外,利用人类运动学先验知识进行视角转换,可以保证转换后的自视角视频数据的合理性。

关键设计:在视角转换过程中,可能需要使用对抗训练来保证生成自视角视频的真实性。损失函数可能包含重构损失、对抗损失和姿态一致性损失。网络结构的选择取决于具体的实现,可以使用Transformer或者RNN等模型来构建世界模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用EgoExo-WM方法训练的自视角世界模型在预测质量和下游规划任务上均有显著提升。具体来说,在视觉预测任务中,该方法能够更准确地预测未来的视觉状态。在下游规划任务中,该方法能够更有效地规划出实现目标状态所需的身体姿态序列。与基线方法相比,该方法在各项指标上均取得了显著的提升。

🎯 应用场景

该研究成果可广泛应用于机器人规划、增强现实指导等领域。例如,机器人可以利用该方法学习人类的行为模式,从而更好地完成任务。在增强现实应用中,该方法可以用于预测用户的下一步动作,从而提供更智能的辅助功能。此外,该方法还可以用于虚拟现实、游戏等领域,提升用户体验。

📄 摘要(原文)

Egocentric world models present a promising direction for enabling agents to predict and plan, but their performance is constrained by the limited availability of egocentric training data and its inherent partial observability of humans' physical actions. In contrast, exocentric video is abundant and reveals body poses well, but lacks direct alignment with an agent's action space -- and is not egocentric. We propose a method to bridge this gap by extracting structured body pose from exocentric video as a representation of action and transforming the exocentric video to egocentric video, informed by a human kinematics prior. This process unlocks the integration of in-the-wild exocentric data for egocentric world model training. We show that training whole-body action-conditioned egocentric world models with our converted data significantly improves both prediction quality and downstream planning performance, where we infer the sequence of body poses needed to achieve a visual goal state. Our approach paves the way to enlist arbitrary in-the-wild videos for building powerful egocentric world models, furthering applications in robot planning and augmented-reality guidance.