RealMaster: Lifting Rendered Scenes into Photorealistic Video
作者: Dana Cohen-Bar, Ido Sobol, Raphael Bensadoun, Shelly Sheynin, Oran Gafni, Or Patashnik, Daniel Cohen-Or, Amit Zohar
分类: cs.CV
发布日期: 2026-03-24
备注: Project page: https://danacohen95.github.io/RealMaster/
💡 一句话要点
RealMaster:利用视频扩散模型将渲染场景提升为照片级真实视频
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 视频生成 扩散模型 照片级真实感 3D渲染 几何条件 IC-LoRA 锚点传播
📋 核心要点
- 现有视频生成模型缺乏对场景的精确控制,且难以保证3D一致性,而3D引擎渲染效果真实感不足。
- RealMaster利用视频扩散模型,通过几何条件线索和锚点传播策略,将渲染视频转化为照片级真实视频。
- 实验表明,RealMaster在GTA-V序列上显著优于现有视频编辑方法,提升了真实感并保留了3D控制。
📝 摘要(中文)
当前先进的视频生成模型虽然能产生惊人的照片级真实感,但缺乏将生成内容与特定场景需求精确对齐所需的控制能力。此外,由于没有潜在的显式几何结构,这些模型无法保证3D一致性。另一方面,3D引擎可以对每个场景元素进行精细控制,并提供原生的3D一致性,但其输出通常仍停留在“恐怖谷”中。为了弥合这种从模拟到真实的差距,既需要结构精度(输出必须完全保留输入的几何结构和动态),也需要全局语义转换(必须对材质、光照和纹理进行整体转换以实现照片级真实感)。我们提出了RealMaster,一种利用视频扩散模型将渲染视频提升为照片级真实视频的方法,同时保持与3D引擎输出的完全对齐。为了训练该模型,我们通过基于锚点的传播策略生成配对数据集,其中第一帧和最后一帧被增强以提高真实感,并使用几何条件线索在中间帧中传播。然后,我们在这些配对视频上训练IC-LoRA,将pipeline的高质量输出提炼成一个模型,该模型可以推广到pipeline的约束之外,处理序列中间出现的对象和角色,并支持无需锚帧的推理。在复杂的GTA-V序列上进行评估,RealMaster显著优于现有的视频编辑基线,在提高照片级真实感的同时,保留了原始3D控制指定的几何结构、动态和身份。
🔬 方法详解
问题定义:论文旨在解决3D渲染引擎生成的视频真实感不足的问题,现有方法要么缺乏对场景的精确控制和3D一致性,要么真实感不足,难以达到照片级真实效果。
核心思路:论文的核心思路是利用视频扩散模型强大的生成能力,将渲染视频的结构信息和动态信息作为条件,引导扩散模型生成更逼真的视频内容。通过锚点帧增强和几何条件传播,保证生成视频与原始渲染视频在几何结构和动态上的一致性。
技术框架:RealMaster的整体框架包含以下几个主要阶段:1) 使用3D引擎渲染视频序列;2) 对视频序列的首尾帧进行真实感增强,作为锚点帧;3) 利用几何信息(如光流)将锚点帧的增强效果传播到中间帧,生成配对的训练数据;4) 在配对数据上训练IC-LoRA模型,将高质量的生成结果提炼到模型中,使其能够泛化到新的场景。
关键创新:RealMaster的关键创新在于:1) 提出了一种基于锚点的传播策略,利用几何信息将真实感增强效果从锚点帧传播到整个视频序列,从而生成高质量的训练数据;2) 使用IC-LoRA模型,将pipeline的高质量输出提炼成一个更通用的模型,使其能够处理序列中间出现的对象和角色,并支持无需锚帧的推理。
关键设计:在数据生成阶段,论文使用光流作为几何条件,指导锚点帧的增强效果在中间帧的传播。在模型训练阶段,论文使用IC-LoRA(Implicit Conditioning LoRA)方法,这是一种高效的参数微调技术,可以在保持模型生成能力的同时,使其更好地适应特定的任务。具体的损失函数和网络结构细节在论文中没有详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
RealMaster在GTA-V数据集上进行了实验,结果表明,该方法显著优于现有的视频编辑基线。具体来说,RealMaster在提高照片级真实感的同时,能够很好地保留原始3D控制指定的几何结构、动态和身份信息。论文中没有给出具体的量化指标和提升幅度,属于未知信息。
🎯 应用场景
RealMaster具有广泛的应用前景,可用于游戏开发、电影制作、虚拟现实等领域。它可以帮助开发者快速生成高质量的视频内容,提升用户体验。此外,该技术还可以用于修复老旧视频、增强视频的真实感,具有重要的实际价值。未来,该技术有望进一步发展,实现更逼真、更可控的视频生成。
📄 摘要(原文)
State-of-the-art video generation models produce remarkable photorealism, but they lack the precise control required to align generated content with specific scene requirements. Furthermore, without an underlying explicit geometry, these models cannot guarantee 3D consistency. Conversely, 3D engines offer granular control over every scene element and provide native 3D consistency by design, yet their output often remains trapped in the "uncanny valley". Bridging this sim-to-real gap requires both structural precision, where the output must exactly preserve the geometry and dynamics of the input, and global semantic transformation, where materials, lighting, and textures must be holistically transformed to achieve photorealism. We present RealMaster, a method that leverages video diffusion models to lift rendered video into photorealistic video while maintaining full alignment with the output of the 3D engine. To train this model, we generate a paired dataset via an anchor-based propagation strategy, where the first and last frames are enhanced for realism and propagated across the intermediate frames using geometric conditioning cues. We then train an IC-LoRA on these paired videos to distill the high-quality outputs of the pipeline into a model that generalizes beyond the pipeline's constraints, handling objects and characters that appear mid-sequence and enabling inference without requiring anchor frames. Evaluated on complex GTA-V sequences, RealMaster significantly outperforms existing video editing baselines, improving photorealism while preserving the geometry, dynamics, and identity specified by the original 3D control.