GenEraser: Generalizable Video Object Removal via Balanced Text-Mask Guidance and Decoupled Locator-Preserver

📄 arXiv: 2605.30045v1 📥 PDF

作者: Yuqing Chen, Lin Liu, Haisu Wu, Xiaopeng Zhang, Yaowei Wang, Yujiu Yang, Qi Tian

分类: cs.CV

发布日期: 2026-05-28

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

GenEraser:提出一种基于平衡文本-掩码引导和解耦定位-保持器的通用视频对象移除框架。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频对象移除 文本引导 扩散Transformer 解耦架构 多模态融合

📋 核心要点

  1. 现有视频对象移除方法难以同时消除目标对象及其相关物理效果,尤其是在域外场景中,主要原因是复杂时空模糊性。
  2. GenEraser通过多条件混合专家网络和二分文本引导,增强了对复杂效果的识别,并使用解耦专家架构平衡语义泛化和像素对齐。
  3. 实验表明,GenEraser在ROSE和VOR-Eval基准测试中分别提高了2.16 dB和1.44 dB,并在开放世界场景中表现出强大的泛化能力。

📝 摘要(中文)

视频对象移除任务经常难以同时消除目标对象及其相关的物理效果(例如,烟雾、反射、光线和波纹),尤其是在复杂时空模糊性的域外场景中。现有方法主要依赖于空间掩码,但通常无法捕捉到弱相关的效果,并且显式文本引导的潜力尚未被充分探索。此外,移除模型在高层语义泛化和精确像素级背景保持之间存在根本的优化冲突。为了解决这些挑战,我们提出了GenEraser,一个用于通用和高保真视频对象和效果移除的新框架。首先,我们引入了一个多条件混合专家(MC-MoE)与二分文本引导相结合,以充分利用扩散Transformer的多模态先验,从而显著增强了对复杂效果的识别。其次,开发了一种可学习的深度“CFG”融合机制(LD-CFG),以自适应地平衡掩码和文本条件在不同场景中的相对主导地位。最后,我们提出了一个解耦专家架构,包括一个定位器和一个保持器,以减轻语义泛化和像素对齐之间的内在权衡。大量的实验表明,我们的GenEraser超越了最近最先进的方法,实现了显著的定量改进(例如,在ROSE Benchmark和VOR-Eval上分别提高了2.16 dB和1.44 dB),同时在开放世界场景中保持了异常强大的泛化能力。

🔬 方法详解

问题定义:视频对象移除旨在从视频中移除指定的对象,并填充移除区域,同时保持视频的连贯性和真实感。现有方法主要依赖空间掩码,难以捕捉弱相关的物理效果,且在高层语义泛化和像素级背景保持之间存在优化冲突,导致在复杂场景和域外数据上的效果不佳。

核心思路:GenEraser的核心思路是利用文本引导来辅助空间掩码,从而更好地识别和移除目标对象及其相关效果。同时,通过解耦专家架构,分别处理定位和背景保持,以缓解语义泛化和像素对齐之间的冲突。这种设计旨在提高模型在复杂场景和域外数据上的泛化能力和移除效果。

技术框架:GenEraser框架主要包含以下几个模块:1) 多条件混合专家(MC-MoE):利用扩散Transformer的多模态先验,结合文本引导,增强对复杂效果的识别。2) 可学习的深度“CFG”融合机制(LD-CFG):自适应地平衡掩码和文本条件在不同场景中的相对重要性。3) 解耦专家架构:包含一个定位器(Locator)和一个保持器(Preserver),分别负责目标定位和背景保持。整体流程是,首先通过MC-MoE和LD-CFG提取特征,然后通过解耦专家架构进行移除和填充。

关键创新:GenEraser的关键创新在于:1) 引入了文本引导,弥补了传统方法仅依赖空间掩码的不足,提高了对复杂效果的识别能力。2) 提出了可学习的深度“CFG”融合机制,能够自适应地平衡掩码和文本条件,提高了模型的鲁棒性。3) 设计了解耦专家架构,缓解了语义泛化和像素对齐之间的冲突,提高了移除效果的质量。

关键设计:MC-MoE的具体实现方式是使用多个专家网络,每个专家网络负责处理不同的条件(例如,不同的文本描述)。LD-CFG通过学习权重来动态调整掩码和文本条件的重要性。解耦专家架构中,定位器负责预测目标对象的位置和形状,保持器负责填充移除区域并保持背景的连贯性。损失函数的设计需要同时考虑移除的准确性、填充区域的真实感和视频的连贯性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GenEraser在ROSE Benchmark和VOR-Eval数据集上分别取得了2.16 dB和1.44 dB的PSNR提升,显著优于现有最先进的方法。此外,该方法在开放世界场景中表现出强大的泛化能力,表明其在实际应用中具有很高的价值。实验结果充分验证了GenEraser在视频对象移除任务上的有效性和优越性。

🎯 应用场景

GenEraser技术可应用于视频编辑、内容创作、安全监控等领域。例如,可以用于移除视频中不需要的对象,如广告、行人等,或者用于修复损坏的视频片段。该技术在电影制作、新闻报道、在线教育等领域具有广泛的应用前景,并有望提升视频内容的质量和用户体验。

📄 摘要(原文)

Video object removal frequently struggles to simultaneously eliminate target objects and their associated physical effects (e.g., smoke, reflections, light, and ripples) in out-of-domain scenarios due to complex spatiotemporal ambiguities. While existing methods primarily rely on spatial masks, they often fail to capture weakly correlated effects, and the potential of explicit textual guidance remains underexplored. Furthermore, a fundamental optimization conflict exists in removal models between high-level semantic generalization and precise pixel-level background preservation. To address these challenges, we propose GenEraser, a novel framework for generalized and high-fidelity video object and effect removal. First, we introduce a Multi-Conditional Mixture-of-Experts (MC-MoE) paired with Bipartite Text guidance to fully exploit the multimodal priors of Diffusion Transformers, significantly enhancing the identification of complex effects. Second, a Learnable Deep ``CFG'' Fusion mechanism (LD-CFG) is developed to adaptively balance the relative dominance of mask and textual conditions across diverse scenarios. Finally, we propose a Decoupled Expert Architecture, comprising a Locator and a Preserver, to mitigate the inherent trade-off between semantic generalization and pixel alignment. Extensive experiments demonstrate that our GenEraser surpasses recent state-of-the-art approaches, achieving significant quantitative improvements (e.g., $2.16$ dB and $1.44$ dB on the ROSE Benchmark and VOR-Eval, respectively) while maintaining exceptionally robust generalization in open-world scenarios. https://cyqii.github.io/GenEraser.github.io/