Preserve, Reveal, Expand: Faithful 4D Video Editing with Region-Aware Conditioning

📄 arXiv: 2605.20961v1 📥 PDF

作者: Zhangchi Hu, Wenzhang Sun, Xiangchen Yin, Jiahui Yuan, Chunfeng Wang, Hao Li, Kun Zhan, Xiaoyan Sun

分类: cs.CV

发布日期: 2026-05-20

备注: 23 pages, 13 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出PREX框架,通过区域感知条件控制实现忠实的4D视频编辑

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 4D视频编辑 视频扩散模型 区域感知 条件控制 时空建模

📋 核心要点

  1. 现有4D视频编辑方法难以区分可靠的原始观测和不可靠的生成内容,导致编辑结果不忠实。
  2. PREX框架将时空体分解为保留、揭示和扩展区域,并使用区域感知的适配器注入外观信息,提升编辑质量。
  3. PREBench基准测试包含多种编辑类型和评估指标,实验表明PREX在保持视觉质量的同时,显著减少了区域结构化错误。

📝 摘要(中文)

现有的4D驱动视频扩散模型主要关注生成结果的合理性,但忠实的4D编辑需要保留原始观测区域,同时合成遮挡或视野外的内容。本文指出存在证据-角色不匹配问题:可靠的原始证据、不可靠的渲染线索和不支持的区域被混杂在单一条件信号中,导致保留漂移、重影和不稳定的外推。为此,我们提出了PREX(Preserve, Reveal, Expand),一个区域感知的框架,根据观测支持和场景范围将目标时空体分解为保留(Preserve)、揭示(Reveal)和扩展(Expand)角色。PREX通过校准的置信度构建基于观测的表观线索,并通过区域感知适配器将其注入到冻结的视频扩散骨干网络中,该适配器通过代理任务进行训练,无需配对的编辑视频。我们进一步引入了PREBench,一个包含精心编辑、区域角色掩码和人类对齐指标的诊断基准,以补充全局视频质量和4D控制评估。实验表明,PREX减少了区域结构化失败,同时保持了强大的视觉质量和4D编辑控制能力。

🔬 方法详解

问题定义:现有的4D视频编辑方法,特别是基于扩散模型的方法,在编辑过程中难以区分原始视频中可靠的观测区域和需要模型生成的新区域。这种混淆导致“证据-角色不匹配”问题,即模型无法有效利用原始观测信息,从而产生保留漂移、重影等伪影,并导致外推结果不稳定。现有方法缺乏对不同区域的区分处理,无法保证编辑的忠实性。

核心思路:PREX的核心思路是将4D时空体根据观测支持和场景范围分解为三个角色区域:Preserve(保留)、Reveal(揭示)和Expand(扩展)。Preserve区域对应原始视频中可见且需要保持不变的部分;Reveal区域对应被遮挡但可以推断的部分;Expand区域对应完全超出原始视野需要生成的部分。通过这种分解,可以针对不同区域采用不同的处理策略,从而提高编辑的忠实性和质量。

技术框架:PREX框架主要包含以下几个模块:1) 区域角色分解模块:根据输入视频和编辑指令,将4D时空体分解为Preserve、Reveal和Expand三个区域。2) 外观线索构建模块:利用原始视频信息,为Preserve和Reveal区域构建外观线索,并校准置信度。3) 区域感知适配器:将构建的外观线索通过区域感知的方式注入到预训练的视频扩散骨干网络中。4) 视频扩散骨干网络:负责生成最终的编辑视频。

关键创新:PREX的关键创新在于区域感知的条件控制。通过将时空体分解为不同的角色区域,并针对不同区域采用不同的处理策略,PREX能够更有效地利用原始观测信息,避免“证据-角色不匹配”问题。此外,PREX还引入了区域感知适配器,能够将外观线索以区域感知的方式注入到视频扩散骨干网络中,从而更好地控制生成过程。

关键设计:PREX的关键设计包括:1) 区域角色分解策略:采用基于几何和语义信息的分解方法,确保区域划分的准确性。2) 外观线索构建方法:利用光度一致性和几何约束,构建高质量的外观线索,并使用置信度校准机制,降低噪声的影响。3) 区域感知适配器结构:设计了一种特殊的网络结构,能够根据区域角色自适应地调整外观线索的注入方式。4) 代理训练任务:设计了一系列代理训练任务,用于训练区域感知适配器,而无需配对的编辑视频。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PREX在PREBench基准测试上取得了显著的性能提升。相较于现有方法,PREX能够显著减少区域结构化错误,例如保留漂移和重影,同时保持了强大的视觉质量和4D编辑控制能力。具体指标提升数据在论文中给出,证明了PREX在忠实4D视频编辑方面的优越性。

🎯 应用场景

PREX框架可应用于电影特效制作、虚拟现实内容生成、视频游戏开发等领域。它可以帮助用户更方便地编辑和修改4D视频,例如替换场景中的物体、改变人物的动作、扩展场景的范围等。该技术具有广泛的应用前景,能够提升视频编辑的效率和质量,并为用户带来更丰富的创作体验。

📄 摘要(原文)

Existing 4D-driven video diffusion models primarily target plausible generation, but faithful 4D editing requires preserving source-observed regions while synthesizing disoccluded or out-of-view content. We identify Evidence-Role Mismatch: reliable source-backed evidence, unreliable rendered cues, and unsupported regions are entangled in a single conditioning signal, causing preservation drift, ghosting, and unstable extrapolation. We propose PREX (Preserve, Reveal, Expand), a region-aware framework that decomposes the target spatiotemporal volume into Preserve, Reveal, and Expand roles according to observation support and scene extent. PREX builds observation-backed appearance cues with calibrated confidence and injects them into a frozen video diffusion backbone through a region-aware adapter, trained with proxy tasks without requiring paired edited videos. We further introduce PREBench, a diagnostic benchmark with curated edits, region-role masks, and human-aligned metrics that complement global video-quality and 4D-control evaluations. Experiments show that PREX reduces region-structured failures while maintaining strong visual quality and 4D edit control capability. Project Page: https://ricepastem.github.io/PREX-Open