WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance

作者: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang

分类: cs.GR, cs.AI, cs.CV

发布日期: 2025-09-18 (更新: 2025-09-27)

备注: Project Webpage: https://worldforge-agi.github.io/

💡 一句话要点

WorldForge：通过免训练引导解锁视频扩散模型中的涌现式3D/4D生成

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting)

关键词: 视频扩散模型 3D/4D生成 免训练引导 轨迹控制 时空一致性

📋 核心要点

现有视频扩散模型在空间智能任务中潜力巨大，但受限于可控性、时空一致性和场景相机动态的纠缠。
WorldForge通过帧内递归细化、流门控潜在融合和双路径自校正引导，实现免训练的细粒度轨迹引导。
实验表明，WorldForge在轨迹依从性、几何一致性和感知质量上均优于现有方法，达到SOTA性能。

📝 摘要（中文）

本文提出WorldForge，一个免训练的推理期框架，旨在解决视频扩散模型在空间智能任务中存在的控制性不足、时空一致性差以及场景-相机动态纠缠等问题。该框架由三个紧密耦合的模块组成：1) 帧内递归细化，通过递归校正循环在去噪步骤中注入细粒度的轨迹引导，确保运动与目标路径对齐；2) 流门控潜在融合，利用光流相似性解耦潜在空间中的运动和外观，并选择性地将轨迹引导注入到与运动相关的通道中；3) 双路径自校正引导，比较引导和非引导的去噪路径，自适应地校正由噪声或未对齐的结构信号引起的轨迹漂移。这些组件无需训练即可注入细粒度的、轨迹对齐的引导，从而实现精确的运动控制和逼真的内容生成。该框架是即插即用的且模型无关的，适用于各种3D/4D任务。大量实验表明，该方法在轨迹依从性、几何一致性和感知质量方面均达到了最先进的性能，优于训练密集型和仅推理的基线方法。

🔬 方法详解

问题定义：视频扩散模型在3D/4D生成任务中面临控制性差、时空一致性不足以及场景-相机动态纠缠的问题。现有方法，如模型微调和基于warping的重绘，在可扩展性、泛化性和对抗伪影的鲁棒性方面存在不足。

核心思路：WorldForge的核心思路是在推理阶段，通过免训练的方式，对视频扩散模型的生成过程进行细粒度的轨迹引导。通过解耦运动和外观，并自适应地校正轨迹漂移，从而实现精确的运动控制和逼真的内容生成。

技术框架：WorldForge框架包含三个主要模块：1) Intra-Step Recursive Refinement（帧内递归细化）：在去噪的每一步，通过递归校正循环注入轨迹引导，确保运动与目标路径对齐。2) Flow-Gated Latent Fusion（流门控潜在融合）：利用光流相似性，在潜在空间中解耦运动和外观，并选择性地将轨迹引导注入到与运动相关的通道中。3) Dual-Path Self-Corrective Guidance（双路径自校正引导）：比较引导和非引导的去噪路径，自适应地校正由噪声或未对齐的结构信号引起的轨迹漂移。

关键创新：WorldForge的关键创新在于其免训练的引导方式，以及三个模块的紧密耦合。通过递归细化、流门控融合和双路径校正，实现了对视频扩散模型生成过程的精确控制，无需额外的训练成本。

关键设计：帧内递归细化模块的关键在于递归校正循环的迭代次数和校正强度。流门控潜在融合模块的关键在于光流相似性的计算方式和门控函数的选择。双路径自校正引导模块的关键在于引导路径和非引导路径的比较方式以及校正策略的设计。

🖼️ 关键图片

📊 实验亮点

实验结果表明，WorldForge在轨迹依从性、几何一致性和感知质量方面均优于现有方法。具体而言，WorldForge在多个数据集上实现了SOTA性能，并在视觉效果上显著优于基线方法，证明了其在3D/4D生成任务中的有效性。

🎯 应用场景

WorldForge具有广泛的应用前景，包括虚拟现实内容生成、电影特效制作、游戏开发、机器人导航和自动驾驶等领域。该框架能够生成具有精确运动控制和逼真视觉效果的3D/4D内容，为相关应用提供高质量的素材和数据。

📄 摘要（原文）

Recent video diffusion models show immense potential for spatial intelligence tasks due to their rich world priors, but this is undermined by limited controllability, poor spatial-temporal consistency, and entangled scene-camera dynamics. Existing solutions, such as model fine-tuning and warping-based repainting, struggle with scalability, generalization, and robustness against artifacts. To address this, we propose WorldForge, a training-free, inference-time framework composed of three tightly coupled modules. 1) Intra-Step Recursive Refinement injects fine-grained trajectory guidance at denoising steps through a recursive correction loop, ensuring motion remains aligned with the target path. 2) Flow-Gated Latent Fusion leverages optical flow similarity to decouple motion from appearance in the latent space and selectively inject trajectory guidance into motion-related channels. 3) Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths to adaptively correct trajectory drift caused by noisy or misaligned structural signals. Together, these components inject fine-grained, trajectory-aligned guidance without training, achieving both accurate motion control and photorealistic content generation. Our framework is plug-and-play and model-agnostic, enabling broad applicability across various 3D/4D tasks. Extensive experiments demonstrate that our method achieves state-of-the-art performance in trajectory adherence, geometric consistency, and perceptual quality, outperforming both training-intensive and inference-only baselines.

WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理