Catalyst4D: High-Fidelity 3D-to-4D Scene Editing via Dynamic Propagation

📄 arXiv: 2603.12766v1 📥 PDF

作者: Shifeng Chen, Yihui Li, Jun Liao, Hongyu Yang, Di Huang

分类: cs.CV

发布日期: 2026-03-13

备注: https://junliao2025.github.io/Catalyst4D-ProjectPage/


💡 一句话要点

Catalyst4D:通过动态传播实现高保真3D到4D场景编辑

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态场景编辑 4D高斯场景 运动引导 外观细化 时间一致性 最优传输 锚点

📋 核心要点

  1. 现有方法在动态场景编辑中,直接扩展2D扩散模型至4D时,易产生运动伪影和时间不连贯。
  2. Catalyst4D通过锚点运动引导和颜色不确定性引导的外观细化,实现时空一致的动态场景编辑。
  3. 实验结果表明,Catalyst4D在视觉质量和运动连贯性上优于现有方法,实现了高保真编辑。

📝 摘要(中文)

动态场景编辑具有挑战性,直接将2D扩散模型扩展到4D通常会产生运动伪影、时间闪烁和不一致的风格传播。本文提出了Catalyst4D框架,该框架将高质量的3D编辑迁移到动态4D高斯场景,同时保持空间和时间连贯性。核心是基于锚点的运动引导(AMG),它从原始和编辑后的高斯分布中构建一组结构稳定且具有空间代表性的锚点。这些锚点作为鲁棒的区域级参考,并通过最优传输建立它们的对应关系,从而实现一致的变形传播,而不会产生跨区域干扰或运动漂移。此外,颜色不确定性引导的外观细化(CUAR)通过估计每个高斯分布的颜色不确定性并选择性地细化容易出现遮挡伪影的区域,从而保持时间外观一致性。大量实验表明,Catalyst4D实现了时间稳定的高保真动态场景编辑,并在视觉质量和运动连贯性方面优于现有方法。

🔬 方法详解

问题定义:动态场景编辑旨在对随时间变化的3D场景进行修改,现有方法直接将2D扩散模型扩展到4D,但由于缺乏对时间一致性的约束,容易产生运动伪影、时间闪烁以及风格不一致等问题。这些问题严重影响了编辑结果的质量和真实感。

核心思路:Catalyst4D的核心思路是通过建立空间和时间上的对应关系,将3D编辑的结果平滑且一致地传播到整个动态4D场景中。具体来说,它利用锚点来引导运动,并利用颜色不确定性来优化外观,从而保证编辑后的场景在时间和空间上都具有高度的一致性。

技术框架:Catalyst4D框架主要包含两个核心模块:Anchor-based Motion Guidance (AMG) 和 Color Uncertainty-guided Appearance Refinement (CUAR)。首先,AMG模块从原始和编辑后的高斯分布中提取具有代表性的锚点,并通过最优传输建立这些锚点之间的对应关系,从而引导变形传播。然后,CUAR模块估计每个高斯分布的颜色不确定性,并选择性地细化容易出现遮挡伪影的区域,以保持时间外观一致性。

关键创新:Catalyst4D的关键创新在于:1) 提出了一种基于锚点的运动引导方法,能够有效地建立原始场景和编辑后场景之间的对应关系,从而实现一致的变形传播;2) 引入了颜色不确定性引导的外观细化方法,能够有效地减少由于遮挡等因素引起的时间不一致性问题。

关键设计:在AMG模块中,锚点的选择和对应关系的建立至关重要。论文采用了一种基于结构稳定性和空间代表性的锚点选择策略,并使用最优传输算法来建立锚点之间的对应关系。在CUAR模块中,颜色不确定性的估计采用了一种基于高斯分布的统计方法,并根据不确定性的大小来调整外观细化的强度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Catalyst4D在多个动态场景编辑任务上进行了评估,实验结果表明,该方法在视觉质量和运动连贯性方面均优于现有方法。具体来说,Catalyst4D能够有效地减少运动伪影和时间闪烁,并保持编辑后场景的风格一致性。定量指标和定性结果均验证了Catalyst4D的有效性。

🎯 应用场景

Catalyst4D在电影制作、游戏开发、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于快速编辑和修改动态3D场景,例如改变人物的动作、调整场景的光照效果、添加新的物体等。该技术可以显著提高内容创作的效率和质量,并为用户提供更加逼真和沉浸式的体验。

📄 摘要(原文)

Recent advances in 3D scene editing using NeRF and 3DGS enable high-quality static scene editing. In contrast, dynamic scene editing remains challenging, as methods that directly extend 2D diffusion models to 4D often produce motion artifacts, temporal flickering, and inconsistent style propagation. We introduce Catalyst4D, a framework that transfers high-quality 3D edits to dynamic 4D Gaussian scenes while maintaining spatial and temporal coherence. At its core, Anchor-based Motion Guidance (AMG) builds a set of structurally stable and spatially representative anchors from both original and edited Gaussians. These anchors serve as robust region-level references, and their correspondences are established via optimal transport to enable consistent deformation propagation without cross-region interference or motion drift. Complementarily, Color Uncertainty-guided Appearance Refinement (CUAR) preserves temporal appearance consistency by estimating per-Gaussian color uncertainty and selectively refining regions prone to occlusion-induced artifacts. Extensive experiments demonstrate that Catalyst4D achieves temporally stable, high-fidelity dynamic scene editing and outperforms existing methods in both visual quality and motion coherence.