X2Video: Adapting Diffusion Models for Multimodal Controllable Neural Video Rendering

作者: Zhitong Huang, Mohan Zhang, Renhan Wang, Rui Tang, Hao Zhu, Jing Liao

分类: cs.GR, cs.CV

发布日期: 2025-10-09

备注: Code, model, and dataset will be released at project page soon: https://luckyhzt.github.io/x2video

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

X2Video：首个基于扩散模型的多模态可控神经视频渲染框架，通过内参引导生成逼真视频。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 神经视频渲染 扩散模型 多模态控制 固有通道引导 时间一致性 长视频生成 混合自注意力 掩码交叉注意力

📋 核心要点

现有神经渲染方法难以精确控制视频的颜色、材质、几何形状和光照，且缺乏对多模态控制的有效支持。
X2Video利用固有通道引导扩散模型，结合混合自注意力和掩码交叉注意力，实现对视频内容的多模态精确控制。
实验表明，X2Video能够生成时间一致且逼真的长视频，并支持通过参数调整编辑视频的颜色、材质等属性。

📝 摘要（中文）

本文提出X2Video，这是首个利用扩散模型渲染照片级真实视频的框架，它以固有通道（包括反照率、法线、粗糙度、金属度和辐照度）为指导，同时支持直观的多模态控制，包括参考图像和文本提示，适用于全局和局部区域。固有通道引导能够精确地操纵颜色、材质、几何形状和光照，而参考图像和文本提示则在缺乏固有信息的情况下提供直观的调整。为了实现这些功能，我们将固有通道引导的图像生成模型XRGB扩展到视频生成，采用了一种新颖而高效的混合自注意力机制，确保视频帧之间的时间一致性，并提高参考图像的保真度。我们进一步开发了一种掩码交叉注意力机制，用于解耦全局和局部文本提示，并将它们有效地应用于相应的局部和全局区域。为了生成长视频，我们提出了一种新颖的递归采样方法，该方法结合了渐进式帧采样、关键帧预测和帧插值，以保持长程时间一致性，同时防止误差累积。为了支持X2Video的训练，我们构建了一个名为InteriorVideo的视频数据集，其中包含来自295个室内场景的1154个房间，以及可靠的ground-truth固有通道序列和流畅的相机轨迹。定性和定量评估表明，X2Video可以生成由固有条件引导的、时间上一致且逼真的长视频。此外，X2Video有效地适应了具有参考图像、全局和局部文本提示的多模态控制，并同时支持通过参数调整来编辑颜色、材质、几何形状和光照。

🔬 方法详解

问题定义：现有神经视频渲染方法在精确控制视频内容（如颜色、材质、几何形状和光照）方面存在困难，并且缺乏对多模态控制（如参考图像和文本提示）的有效支持。这些方法通常难以在保持时间一致性的同时，实现对视频内容的精细化编辑。

核心思路：X2Video的核心思路是利用固有通道（如反照率、法线、粗糙度等）作为指导，结合扩散模型强大的生成能力，实现对视频内容的可控渲染。通过引入参考图像和文本提示等多模态控制方式，进一步增强了用户对视频内容的编辑能力。这种设计允许用户在缺乏固有信息的情况下，也能通过直观的方式调整视频内容。

技术框架：X2Video的整体框架基于扩散模型，并扩展了XRGB模型以适应视频生成。主要包含以下几个模块：1) 固有通道引导模块：利用反照率、法线等固有通道作为扩散模型的条件输入，指导视频内容的生成。2) 混合自注意力模块：用于增强视频帧之间的时间一致性，并提高参考图像的保真度。3) 掩码交叉注意力模块：用于解耦全局和局部文本提示，并将它们有效地应用于相应的区域。4) 递归采样模块：用于生成长视频，通过关键帧预测和帧插值，保持长程时间一致性，并防止误差累积。

关键创新：X2Video的关键创新在于以下几个方面：1) 首次将固有通道引导的扩散模型应用于视频渲染，实现了对视频内容更精确的控制。2) 提出了混合自注意力机制，有效增强了视频帧之间的时间一致性。3) 开发了掩码交叉注意力机制，实现了对全局和局部文本提示的解耦和有效应用。4) 提出了递归采样方法，解决了长视频生成中的时间一致性问题。

关键设计：在混合自注意力模块中，论文设计了一种混合注意力机制，同时考虑了全局和局部上下文信息，以提高参考图像的保真度。在掩码交叉注意力模块中，论文使用掩码来区分全局和局部文本提示，并将它们分别应用于相应的区域。在递归采样模块中，论文采用渐进式帧采样策略，并结合关键帧预测和帧插值，以保持长程时间一致性。

🖼️ 关键图片

📊 实验亮点

X2Video在InteriorVideo数据集上进行了评估，实验结果表明，该方法能够生成时间一致且逼真的长视频。通过与现有方法的对比，X2Video在视频质量和可控性方面均取得了显著的提升。此外，实验还验证了X2Video在多模态控制方面的有效性，用户可以通过参考图像和文本提示，对视频内容进行精确的编辑。

🎯 应用场景

X2Video在虚拟现实、游戏开发、电影制作、室内设计等领域具有广泛的应用前景。它可以用于生成逼真的室内场景视频，支持用户通过文本提示或参考图像进行定制化编辑。该技术还可以应用于产品展示视频的生成，帮助用户快速创建高质量的营销内容。未来，X2Video有望成为一种强大的视频内容创作工具，降低视频制作的门槛，并为用户提供更丰富的创作可能性。

📄 摘要（原文）

We present X2Video, the first diffusion model for rendering photorealistic videos guided by intrinsic channels including albedo, normal, roughness, metallicity, and irradiance, while supporting intuitive multi-modal controls with reference images and text prompts for both global and local regions. The intrinsic guidance allows accurate manipulation of color, material, geometry, and lighting, while reference images and text prompts provide intuitive adjustments in the absence of intrinsic information. To enable these functionalities, we extend the intrinsic-guided image generation model XRGB to video generation by employing a novel and efficient Hybrid Self-Attention, which ensures temporal consistency across video frames and also enhances fidelity to reference images. We further develop a Masked Cross-Attention to disentangle global and local text prompts, applying them effectively onto respective local and global regions. For generating long videos, our novel Recursive Sampling method incorporates progressive frame sampling, combining keyframe prediction and frame interpolation to maintain long-range temporal consistency while preventing error accumulation. To support the training of X2Video, we assembled a video dataset named InteriorVideo, featuring 1,154 rooms from 295 interior scenes, complete with reliable ground-truth intrinsic channel sequences and smooth camera trajectories. Both qualitative and quantitative evaluations demonstrate that X2Video can produce long, temporally consistent, and photorealistic videos guided by intrinsic conditions. Additionally, X2Video effectively accommodates multi-modal controls with reference images, global and local text prompts, and simultaneously supports editing on color, material, geometry, and lighting through parametric tuning. Project page: https://luckyhzt.github.io/x2video

X2Video: Adapting Diffusion Models for Multimodal Controllable Neural Video Rendering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理