EgoForce: Robust Online Egocentric Motion Reconstruction via Diffusion Forcing

📄 arXiv: 2605.13041v1 📥 PDF

作者: Inwoo Hwang, Donggeun Lim, Hojun Jang, Young Min Kim

分类: cs.CV

发布日期: 2026-05-13

备注: Project page: https://inwoohwang.me/EgoForce


💡 一句话要点

EgoForce:通过扩散强制实现鲁棒的在线第一人称视角运动重建

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 第一人称视角 运动重建 扩散模型 在线算法 具身智能

📋 核心要点

  1. 现有方法难以在实时性要求下,从噪声和稀疏的第一人称视角数据中重建长时程全身运动,鲁棒性和速度难以兼顾。
  2. EgoForce采用基于扩散的方法,通过时间非对称噪声调度建模时间演变的uncertainty,并逐步去噪,实现鲁棒的在线运动重建。
  3. 实验表明,EgoForce在具有挑战性的第一人称视角场景中,优于现有的在线和离线方法,实现了长时程全身运动重建。

📝 摘要(中文)

随着具身智能体和AR设备的快速发展,第一人称视角的观测数据可以方便地作为实时交互应用的输入。然而,除了估计的头部轨迹外,第一人称视角只能零星地观察到手部。我们提出了EgoForce,一个在线框架,用于从嘈杂的第一人称视角输入中重建长期的全身运动。现有的生成式框架虽然可以鲁棒地处理噪声和稀疏测量,但它们假设可以获得固定长度的观测窗口,因此不适合实时应用。更快的推理通常依赖于自回归预测,牺牲了鲁棒性。相比之下,我们采用了一种基于扩散的方法,其时间非对称噪声调度灵感来自扩散强制。具体来说,我们的方法对时间演变的uncertainty进行建模,并随着新的流式观测数据的到来逐步去噪状态。结合噪声鲁棒的插补策略,EgoForce在严格的因果约束下逐步生成稳定和连贯的全身运动。实验表明,我们的在线框架优于现有的在线和离线方法,从而能够在具有挑战性的第一人称视角场景中实现长时程的全身运动重建。

🔬 方法详解

问题定义:论文旨在解决从嘈杂和稀疏的第一人称视角数据中,实时重建长时程全身运动的问题。现有方法,如基于生成模型的方法,通常需要固定长度的观测窗口,不适用于在线应用。而自回归预测虽然速度快,但鲁棒性较差,容易受到噪声的影响。因此,如何在保证实时性的前提下,实现鲁棒的全身运动重建是一个挑战。

核心思路:论文的核心思路是利用扩散模型,通过逐步去噪的方式,从噪声数据中恢复出清晰的全身运动。为了适应在线场景,论文采用了时间非对称的噪声调度,使得模型能够随着新观测数据的到来,逐步更新和完善运动重建结果。这种方法既能利用扩散模型的鲁棒性,又能满足实时性的要求。

技术框架:EgoForce框架主要包含以下几个模块:1) 噪声添加模块:根据时间非对称的噪声调度,向观测数据中添加噪声。2) 扩散模型:利用扩散模型学习从噪声数据到清晰运动的映射关系。3) 去噪模块:逐步去除噪声,恢复出全身运动。4) 插补模块:利用噪声鲁棒的插补策略,填补缺失的观测数据。整个流程是,首先对输入的稀疏第一人称视角数据进行噪声添加和插补,然后通过扩散模型逐步去噪,最终得到完整的全身运动重建结果。

关键创新:论文的关键创新在于将扩散模型应用于在线运动重建,并提出了时间非对称的噪声调度方法。与传统的扩散模型不同,EgoForce的噪声调度是时间相关的,使得模型能够根据新观测数据的到来,动态调整噪声水平,从而更好地适应在线场景。此外,噪声鲁棒的插补策略也是一个重要的创新,它能够有效地处理缺失的观测数据,提高重建的鲁棒性。

关键设计:时间非对称噪声调度是关键设计之一,具体实现方式未知。噪声鲁棒的插补策略的具体实现方式也未知。扩散模型的具体网络结构未知,损失函数的设计也未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的EgoForce框架在第一人称视角全身运动重建任务上,优于现有的在线和离线方法。具体的性能数据和对比基线未知,但论文强调EgoForce能够在具有挑战性的第一人称视角场景中实现长时程的全身运动重建,表明其具有较强的鲁棒性和实时性。

🎯 应用场景

EgoForce具有广泛的应用前景,例如在AR/VR游戏中,可以根据玩家的第一人称视角输入,实时生成玩家的全身运动,提高游戏的沉浸感。在机器人领域,可以利用EgoForce从机器人的第一人称视角数据中重建机器人的全身运动,从而实现更精确的运动控制。此外,EgoForce还可以应用于运动分析、人机交互等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

With recent advances in embodied agents and AR devices, egocentric observations are readily available as input for real-world interactive online applications. However, egocentric viewpoints can only sporadically observe hands, in addition to the estimated head trajectory. We propose EgoForce, an online framework for reconstructing long-term full-body motion from noisy egocentric input. While existing generative frameworks can robustly handle noisy and sparse measurements, they assume a fixed-length observation window is available and are thus not suitable for real-time applications. Faster inference often relies on autoregressive prediction, sacrificing robustness. In contrast, we adopt a diffusion-based method with a temporally asymmetric noise schedule inspired by Diffusion Forcing. Specifically, our approach models temporally evolving uncertainty and incrementally denoises states as new streaming observations arrive. Combined with a noise-robust imputation strategy, EgoForce progressively generates stable and coherent full-body motion under strict causal constraints. Experiments demonstrate that our online framework outperforms existing online and offline methods, enabling long-horizon, full-body motion reconstruction in challenging egocentric scenarios.