YOSE: You Only Select Essential Tokens for Efficient DiT-based Video Object Removal

📄 arXiv: 2604.27322v1 📥 PDF

作者: Chenyang Wu, Lina Lei, Fan Li, Chun-Le Guo, Dehong Kong, Xinran Qin, Zhixin Wang, Ming-Ming Cheng, Chongyi Li

分类: cs.CV

发布日期: 2026-04-30

备注: accepted by CVPR2026

🔗 代码/项目: GITHUB


💡 一句话要点

YOSE:提出一种高效的DiT视频对象移除框架,通过选择必要tokens显著加速推理。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 视频对象移除 扩散模型 Transformer 推理加速 动态索引 语义一致性 视频生成

📋 核心要点

  1. 基于DiT的视频对象移除方法计算量大,推理速度慢,难以满足实时性需求。
  2. YOSE通过批量变长索引(BVI)选择必要tokens,并使用扩散过程模拟器(DiffSim)保持语义一致性。
  3. 实验结果表明,YOSE在保持视觉质量的同时,显著提升了推理速度,最高可达2.5倍。

📝 摘要(中文)

本文提出了一种名为YOSE(You Only Select Essential Tokens)的高效微调框架,用于加速基于Diffusion Transformer (DiT) 的视频对象移除。现有方法,如MiniMax Remover,虽然视觉质量出色,但由于在整个时空token空间上进行密集计算,导致推理速度较慢(约10FPS)。YOSE引入了两个关键组件:批量变长索引(BVI)和扩散过程模拟器(DiffSim)模块。BVI是一种可微的动态索引算子,能够根据mask信息自适应地选择必要的tokens,从而实现跨样本的变长token处理。DiffSim为未mask的tokens提供了一种扩散过程近似机制,模拟未mask区域在DiT自注意力中的影响,以保持mask tokens的语义一致性。实验表明,YOSE实现了mask感知的加速,推理时间与mask区域大小近似线性相关,与全token扩散方法相比,在保持视觉质量的同时,在70%的情况下实现了高达2.5倍的加速。代码已开源。

🔬 方法详解

问题定义:视频对象移除旨在从视频中移除指定的对象,并合理地填充移除区域。现有的基于Diffusion Transformer (DiT) 的方法虽然取得了优秀的视觉效果,但由于需要在整个时空token空间上进行密集计算,即使只有一小部分区域需要被移除,计算量仍然很大,导致推理速度较慢,难以满足实时应用的需求。

核心思路:YOSE的核心思路是只关注并处理对移除区域有影响的必要tokens,从而减少计算量。通过动态索引机制,自适应地选择与mask区域相关的tokens进行处理,而对其他区域的tokens进行近似模拟,避免不必要的计算。这样可以使推理时间与mask区域的大小成比例,从而实现加速。

技术框架:YOSE框架主要包含两个核心模块:批量变长索引(BVI)和扩散过程模拟器(DiffSim)。首先,BVI根据mask信息动态地选择需要处理的tokens,形成变长的token序列。然后,DiffSim模块对未被选择的tokens进行扩散过程的近似模拟,以保持mask区域的语义一致性。最后,将选择的tokens和模拟的tokens输入到DiT模型中进行处理,得到最终的视频对象移除结果。

关键创新:YOSE的关键创新在于提出了批量变长索引(BVI)和扩散过程模拟器(DiffSim)这两个模块。BVI实现了mask感知的动态token选择,避免了对所有tokens进行计算,从而显著减少了计算量。DiffSim则保证了在只处理部分tokens的情况下,仍然能够保持视频的语义一致性。与现有方法相比,YOSE能够根据mask区域的大小自适应地调整计算量,从而实现更高效的推理。

关键设计:BVI模块使用可微的索引操作,允许梯度反向传播,从而可以进行端到端的训练。DiffSim模块通过近似模拟扩散过程,减少了计算复杂度。具体来说,DiffSim可能使用一些轻量级的网络结构或者预计算的统计信息来模拟未mask区域的影响。损失函数方面,除了常用的重建损失外,可能还引入了感知损失或对抗损失,以提高生成视频的视觉质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,YOSE在保持与baseline相当的视觉质量的前提下,显著提升了推理速度。在70%的情况下,YOSE实现了高达2.5倍的加速。这表明YOSE能够有效地减少计算量,提高推理效率,使其更适用于实时视频处理应用。

🎯 应用场景

YOSE技术可应用于视频编辑、内容创作、安全监控等领域。例如,在视频编辑中,可以快速移除视频中的不需要的对象,提高编辑效率。在安全监控中,可以用于移除视频中的敏感信息,保护隐私。该技术的发展将推动视频处理技术的进步,并为相关应用带来更高效的解决方案。

📄 摘要(原文)

Recent advances in Diffusion Transformer (DiT)-based video generation technologies have shown impressive results for video object removal. However, these methods still suffer from substantial inference latency. For instance, although MiniMax Remover achieves state-of-the-art visual quality, it operates at only around 10FPS, primarily due to dense computations over the entire spatiotemporal token space, even when only a small masked region actually requires processing. In this paper, we present YOSE, You Only Select Essential Tokens, an efficient fine-tuning framework. YOSE introduces two key components: Batch Variable-length Indexing (BVI) and Diffusion Process Simulator (DiffSim) Module. BVI is a differentiable dynamic indexing operator that adaptively selects essential tokens based on mask information, enabling variable-length token processing across samples. DiffSim provides a diffusion process approximation mechanism for unmasked tokens, which simulates the influence of unmasked regions within DiT self-attention to maintain semantic consistency for masked tokens. With these designs, YOSE achieves mask-aware acceleration, where the inference time scales approximately linearly with the masked regions, in contrast to full-token diffusion methods whose computation remains constant regardless of the mask size. Extensive experiments demonstrate that YOSE achieves up to 2.5X speedup in 70% of cases while maintaining visual quality comparable to the baseline. Code is available at: https://github.com/Wucy0519/YOSE-CVPR26.