World-R1: Reinforcing 3D Constraints for Text-to-Video Generation
作者: Weijie Wang, Xiaoxuan He, Youping Gu, Yifan Yang, Zeyu Zhang, Yefei He, Yanbo Ding, Xirui Hu, Donny Y. Chen, Zhiyuan He, Yuqing Yang, Bohan Zhuang
分类: cs.CV
发布日期: 2026-04-27
备注: Project Page: https://aka.ms/world-r1, Code: https://github.com/microsoft/World-R1
💡 一句话要点
World-R1:通过强化学习增强3D约束的文本到视频生成框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到视频生成 3D约束 强化学习 视频一致性 世界模拟
📋 核心要点
- 现有文本到视频生成模型常出现几何不一致性,而通过修改架构引入3D先验的方法计算成本高且难以扩展。
- World-R1框架利用强化学习,通过3D基础模型和视觉语言模型的反馈,在不改变模型架构的前提下,增强视频生成的3D一致性。
- 实验结果表明,World-R1显著提升了生成视频的3D一致性,同时保持了原有的视觉质量。
📝 摘要(中文)
本文提出World-R1,一个通过强化学习将视频生成与3D约束对齐的框架。现有视频生成模型在视觉合成方面表现出色,但常出现几何不一致性。现有方法虽尝试通过架构修改注入3D先验,但计算成本高且限制了可扩展性。为实现对齐,本文构建了一个专为世界模拟定制的纯文本数据集。利用Flow-GRPO,通过预训练的3D基础模型和视觉语言模型的反馈来优化模型,从而在不改变底层架构的情况下强制执行结构一致性。此外,采用周期性解耦训练策略来平衡刚性几何一致性和动态场景流动性。大量评估表明,该方法显著增强了3D一致性,同时保留了基础模型的原始视觉质量,有效弥合了视频生成和可扩展世界模拟之间的差距。
🔬 方法详解
问题定义:现有文本到视频生成模型在生成复杂场景时,经常出现几何结构不一致的问题,例如物体形变、透视错误等。虽然可以通过修改模型架构引入3D先验知识,但这些方法往往需要大量的计算资源,并且难以扩展到更大的模型和数据集上。因此,如何在不显著增加计算成本的前提下,提升生成视频的3D一致性是一个关键问题。
核心思路:本文的核心思路是利用强化学习,通过预训练的3D基础模型和视觉语言模型作为奖励信号,来引导视频生成模型学习符合3D几何约束的视频内容。这种方法无需修改原有的模型架构,而是通过优化生成策略来提升3D一致性。同时,为了更好地模拟真实世界,作者还构建了一个专门用于世界模拟的纯文本数据集。
技术框架:World-R1框架主要包含以下几个模块:1) 视频生成模型:使用现有的文本到视频生成模型作为基础模型。2) 3D基础模型和视觉语言模型:作为奖励信号的来源,用于评估生成视频的3D一致性和语义合理性。3) 强化学习模块:使用Flow-GRPO算法来优化视频生成模型的策略,使其生成的视频能够获得更高的奖励。4) 周期性解耦训练策略:用于平衡刚性几何一致性和动态场景流动性。
关键创新:该方法最大的创新在于利用强化学习来增强视频生成的3D一致性,而无需修改原有的模型架构。通过预训练的3D基础模型和视觉语言模型作为奖励信号,可以有效地引导模型学习符合3D几何约束的视频内容。此外,提出的周期性解耦训练策略能够更好地平衡静态和动态场景的生成。
关键设计:在强化学习模块中,作者使用了Flow-GRPO算法,这是一种基于梯度策略优化的强化学习算法。奖励函数的设计至关重要,需要综合考虑3D一致性和语义合理性。周期性解耦训练策略的具体实现方式是,在训练过程中,交替地优化静态场景和动态场景的生成,以避免模型过度关注某一方面而忽略另一方面。
🖼️ 关键图片
📊 实验亮点
World-R1在增强视频3D一致性方面表现出色,在不改变底层架构的前提下,显著提升了生成视频的几何合理性。通过与现有方法的对比,证明了该方法在保持视觉质量的同时,能够有效提升3D一致性,弥合了视频生成与可扩展世界模拟之间的差距。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、电影制作等领域,提升生成内容的真实感和沉浸感。例如,可以用于生成更逼真的虚拟环境,或者辅助电影特效制作,降低人工成本。未来,该技术有望进一步发展,实现更高质量、更可控的视频内容生成。
📄 摘要(原文)
Recent video foundation models demonstrate impressive visual synthesis but frequently suffer from geometric inconsistencies. While existing methods attempt to inject 3D priors via architectural modifications, they often incur high computational costs and limit scalability. We propose World-R1, a framework that aligns video generation with 3D constraints through reinforcement learning. To facilitate this alignment, we introduce a specialized pure text dataset tailored for world simulation. Utilizing Flow-GRPO, we optimize the model using feedback from pre-trained 3D foundation models and vision-language models to enforce structural coherence without altering the underlying architecture. We further employ a periodic decoupled training strategy to balance rigid geometric consistency with dynamic scene fluidity. Extensive evaluations reveal that our approach significantly enhances 3D consistency while preserving the original visual quality of the foundation model, effectively bridging the gap between video generation and scalable world simulation.