AnyLift: Scaling Motion Reconstruction from Internet Videos via 2D Diffusion
作者: Hongjie Li, Heng Yu, Jiaman Li, Hong-Xing Yu, Ehsan Adeli, C. Karen Liu, Jiajun Wu
分类: cs.CV
发布日期: 2026-04-20
备注: CVPR 2026. Project website: https://awfuact.github.io/anylift/ The first two authors contribute equally
💡 一句话要点
AnyLift:利用2D扩散模型从互联网视频中扩展运动重建,解决复杂运动和人-物交互问题。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 3D运动重建 人-物交互 2D扩散模型 互联网视频 多视角学习
📋 核心要点
- 现有方法难以在动态相机下恢复全局一致的3D运动,尤其是在运动捕捉数据集中不常见的运动类型。
- 该方法利用2D扩散模型,通过合成多视角2D运动数据,并训练相机条件扩散模型,实现3D人体运动和人-物交互的重建。
- 实验结果表明,该方法在处理体操等复杂运动和真实场景人-物交互视频时,性能优于现有技术。
📝 摘要(中文)
本文提出了一种两阶段框架,利用2D扩散模型从互联网视频中重建3D人体运动和人-物交互(HOI)。第一阶段,该方法合成了特定领域的多视角2D运动数据,利用从互联网视频中提取的2D关键点,纳入现有运动捕捉数据集中罕见的人体运动。第二阶段,在特定领域的合成数据上训练一个相机条件的多视角2D运动扩散模型,以在世界坐标系中恢复3D人体运动和3D HOI。实验表明,该方法在具有挑战性运动(如体操)以及真实场景HOI视频中表现出色,优于现有方法,能够生成更逼真的人体运动和人-物交互。
🔬 方法详解
问题定义:现有方法在从互联网视频中重建3D人体运动和人-物交互时,面临两个主要挑战。一是难以在动态相机下恢复全局一致的3D运动,特别是对于运动捕捉数据集中不常见的运动类型。二是难以恢复连贯的3D人-物交互。
核心思路:该论文的核心思路是利用2D扩散模型,通过合成特定领域的多视角2D运动数据,并训练相机条件扩散模型,从而实现3D人体运动和人-物交互的重建。这种方法能够有效地利用互联网视频中的信息,并克服现有运动捕捉数据集的局限性。
技术框架:该框架包含两个主要阶段。第一阶段是2D运动数据合成阶段,利用从互联网视频中提取的2D关键点,为每个领域合成多视角2D运动数据。第二阶段是3D运动重建阶段,在该阶段,一个相机条件的多视角2D运动扩散模型在特定领域的合成数据上进行训练,以恢复世界坐标系中的3D人体运动和3D HOI。
关键创新:该论文的关键创新在于利用2D扩散模型来合成多视角2D运动数据,并将其用于训练3D运动重建模型。这种方法能够有效地利用互联网视频中的信息,并克服现有运动捕捉数据集的局限性。与现有方法相比,该方法能够更好地处理复杂运动和人-物交互。
关键设计:该论文的关键设计包括:1) 使用2D关键点提取器从互联网视频中提取2D运动信息;2) 设计一个相机条件的多视角2D运动扩散模型,用于从合成的2D运动数据中重建3D运动;3) 使用特定领域的合成数据来训练扩散模型,以提高模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在处理体操等复杂运动和真实场景人-物交互视频时,性能优于现有技术。具体而言,该方法在运动重建的准确性和真实性方面均取得了显著提升,能够生成更逼真的人体运动和人-物交互。
🎯 应用场景
该研究成果可广泛应用于虚拟现实、增强现实、游戏开发、动画制作等领域。通过从互联网视频中自动重建3D人体运动和人-物交互,可以为这些应用提供更逼真、更自然的交互体验,并为大规模人体行为数据集的构建奠定基础。
📄 摘要(原文)
Reconstructing 3D human motion and human-object interactions (HOI) from Internet videos is a fundamental step toward building large-scale datasets of human behavior. Existing methods struggle to recover globally consistent 3D motion under dynamic cameras, especially for motion types underrepresented in current motion-capture datasets, and face additional difficulty recovering coherent human-object interactions in 3D. We introduce a two-stage framework leveraging 2D diffusion that reconstructs 3D human motion and HOI from Internet videos. In the first stage, we synthesize multi-view 2D motion data for each domain, leveraging 2D keypoints extracted from Internet videos to incorporate human motions that rarely appear in existing MoCap datasets. In the second stage, a camera-conditioned multi-view 2D motion diffusion model is trained on the domain-specific synthetic data to recover 3D human motion and 3D HOI in the world space. We demonstrate the effectiveness of our method on Internet videos featuring challenging motions such as gymnastics, as well as in-the-wild HOI videos, and show that it outperforms prior work in producing realistic human motion and human-object interaction.