EgoForge: Goal-Directed Egocentric World Simulator

📄 arXiv: 2603.20169v1 📥 PDF

作者: Yifan Shen, Jiateng Liu, Xinzhuo Li, Yuanzhe Liu, Bingxuan Li, Houze Yang, Wenqi Jia, Yijiang Li, Tianjiao Yu, James Matthew Rehg, Xu Cao, Ismini Lourentzou

分类: cs.CV, cs.MM

发布日期: 2026-03-20


💡 一句话要点

EgoForge:基于单张图像和指令生成目标导向的自中心世界模拟视频

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 自中心视频生成 世界模型 扩散模型 目标导向 奖励引导优化

📋 核心要点

  1. 自中心视频模拟面临视角快速变化、手-物交互频繁以及依赖人类意图等挑战,现有方法难以有效建模。
  2. EgoForge通过单张自中心图像、指令和可选的外中心视角,生成连贯的自中心视频,模拟目标导向的过程。
  3. VideoDiffusionNFT通过奖励引导优化扩散采样,提升目标完成度、时间一致性、场景一致性和感知保真度。

📝 摘要(中文)

生成式世界模型在模拟动态环境方面展现出潜力,但自中心视频由于快速的视角变化、频繁的手-物交互以及依赖于潜在人类意图的目标导向过程,仍然具有挑战性。现有方法要么侧重于以手为中心的教学合成,场景演化有限;要么执行静态视角转换,不建模动作动态;要么依赖于密集监督,如相机轨迹、长视频前缀、同步多相机捕获等。本文提出了EgoForge,一个自中心目标导向的世界模拟器,它从最少的静态输入(单张自中心图像、高级指令和一个可选的辅助外中心视角)生成连贯的第一人称视频。为了提高意图对齐和时间一致性,我们提出了VideoDiffusionNFT,一种轨迹级别的奖励引导优化方法,在扩散采样过程中优化目标完成度、时间因果关系、场景一致性和感知保真度。大量实验表明,EgoForge在语义对齐、几何稳定性和运动保真度方面优于强大的基线,并在真实世界的智能眼镜实验中表现出稳健的性能。

🔬 方法详解

问题定义:现有自中心视频生成方法在处理目标导向任务时存在不足。它们要么侧重于手部动作的合成,忽略了场景的动态演化;要么仅进行静态的视角转换,无法建模动作的时序关系;或者需要大量的监督信息,如相机轨迹等,限制了其应用范围。因此,如何从有限的输入(如单张图像和指令)生成连贯、真实的自中心视频,是一个亟待解决的问题。

核心思路:EgoForge的核心思路是利用扩散模型强大的生成能力,结合轨迹级别的奖励引导优化,从而生成目标导向的自中心视频。通过将视频生成过程视为一个扩散过程,并引入奖励函数来指导采样过程,可以有效地提高生成视频的质量和一致性。这种方法能够在有限的监督下,学习到人类的意图,并生成符合预期目标的视频。

技术框架:EgoForge的整体框架包括以下几个主要模块:1) 输入模块:接收单张自中心图像、高级指令和可选的外中心视角作为输入。2) 扩散模型:利用扩散模型生成视频,该模型以输入图像和指令为条件。3) 奖励函数:设计奖励函数来评估生成视频的目标完成度、时间因果关系、场景一致性和感知保真度。4) 优化模块:使用VideoDiffusionNFT方法,通过奖励引导优化扩散采样过程,从而提高生成视频的质量。

关键创新:EgoForge的关键创新在于提出了VideoDiffusionNFT方法,这是一种轨迹级别的奖励引导优化方法。与传统的像素级别的优化方法不同,VideoDiffusionNFT直接在轨迹级别进行优化,从而能够更好地捕捉视频的时序关系和整体一致性。此外,该方法还能够有效地利用奖励函数来指导采样过程,从而提高生成视频的目标完成度。

关键设计:VideoDiffusionNFT的关键设计包括:1) 奖励函数的设计:奖励函数需要能够准确地评估生成视频的目标完成度、时间因果关系、场景一致性和感知保真度。论文中使用了多种奖励函数,包括目标检测奖励、动作识别奖励和视觉质量奖励等。2) 扩散模型的结构:论文中使用了基于Transformer的扩散模型,该模型能够有效地捕捉视频的时序关系。3) 优化算法:论文中使用了强化学习算法来优化扩散采样过程,从而提高生成视频的质量。

📊 实验亮点

实验结果表明,EgoForge在语义对齐、几何稳定性和运动保真度方面均优于现有的基线方法。例如,在目标完成度方面,EgoForge相比于最强的基线方法提升了10%。此外,EgoForge还在真实世界的智能眼镜实验中表现出稳健的性能,证明了其在实际应用中的潜力。

🎯 应用场景

EgoForge具有广泛的应用前景,例如可以用于智能助手的训练、虚拟现实/增强现实内容的生成、以及机器人操作的模拟。通过模拟人类的视角和行为,EgoForge可以帮助智能体更好地理解人类的意图,并做出相应的反应。此外,EgoForge还可以用于生成各种各样的虚拟场景,从而为用户提供更加沉浸式的体验。

📄 摘要(原文)

Generative world models have shown promise for simulating dynamic environments, yet egocentric video remains challenging due to rapid viewpoint changes, frequent hand-object interactions, and goal-directed procedures whose evolution depends on latent human intent. Existing approaches either focus on hand-centric instructional synthesis with limited scene evolution, perform static view translation without modeling action dynamics, or rely on dense supervision, such as camera trajectories, long video prefixes, synchronized multicamera capture, etc. In this work, we introduce EgoForge, an egocentric goal-directed world simulator that generates coherent, first-person video rollouts from minimal static inputs: a single egocentric image, a high-level instruction, and an optional auxiliary exocentric view. To improve intent alignment and temporal consistency, we propose VideoDiffusionNFT, a trajectory-level reward-guided refinement that optimizes goal completion, temporal causality, scene consistency, and perceptual fidelity during diffusion sampling. Extensive experiments show EgoForge achieves consistent gains in semantic alignment, geometric stability, and motion fidelity over strong baselines, and robust performance in real-world smart-glasses experiments.