YOSE: You Only Select Essential Tokens for Efficient DiT-based Video Object Removal

作者: Chenyang Wu, Lina Lei, Fan Li, Chun-Le Guo, Dehong Kong, Xinran Qin, Zhixin Wang, Ming-Ming Cheng, Chongyi Li

分类: cs.CV

发布日期: 2026-04-30

备注: accepted by CVPR2026

🔗 代码/项目: GITHUB

💡 一句话要点

YOSE：提出一种高效的DiT视频对象移除框架，通过选择必要tokens显著加速推理。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 视频对象移除 扩散模型 Transformer 推理加速 动态索引 语义一致性 视频生成

📋 核心要点

基于DiT的视频对象移除方法计算量大，推理速度慢，难以满足实时性需求。
YOSE通过批量变长索引（BVI）选择必要tokens，并使用扩散过程模拟器（DiffSim）保持语义一致性。
实验结果表明，YOSE在保持视觉质量的同时，显著提升了推理速度，最高可达2.5倍。

📝 摘要（中文）

本文提出了一种名为YOSE（You Only Select Essential Tokens）的高效微调框架，用于加速基于Diffusion Transformer (DiT) 的视频对象移除。现有方法，如MiniMax Remover，虽然视觉质量出色，但由于在整个时空token空间上进行密集计算，导致推理速度较慢（约10FPS）。YOSE引入了两个关键组件：批量变长索引（BVI）和扩散过程模拟器（DiffSim）模块。BVI是一种可微的动态索引算子，能够根据mask信息自适应地选择必要的tokens，从而实现跨样本的变长token处理。DiffSim为未mask的tokens提供了一种扩散过程近似机制，模拟未mask区域在DiT自注意力中的影响，以保持mask tokens的语义一致性。实验表明，YOSE实现了mask感知的加速，推理时间与mask区域大小近似线性相关，与全token扩散方法相比，在保持视觉质量的同时，在70%的情况下实现了高达2.5倍的加速。代码已开源。

🔬 方法详解

问题定义：视频对象移除旨在从视频中移除指定的对象，并合理地填充移除区域。现有的基于Diffusion Transformer (DiT) 的方法虽然取得了优秀的视觉效果，但由于需要在整个时空token空间上进行密集计算，即使只有一小部分区域需要被移除，计算量仍然很大，导致推理速度较慢，难以满足实时应用的需求。

核心思路：YOSE的核心思路是只关注并处理对移除区域有影响的必要tokens，从而减少计算量。通过动态索引机制，自适应地选择与mask区域相关的tokens进行处理，而对其他区域的tokens进行近似模拟，避免不必要的计算。这样可以使推理时间与mask区域的大小成比例，从而实现加速。

技术框架：YOSE框架主要包含两个核心模块：批量变长索引（BVI）和扩散过程模拟器（DiffSim）。首先，BVI根据mask信息动态地选择需要处理的tokens，形成变长的token序列。然后，DiffSim模块对未被选择的tokens进行扩散过程的近似模拟，以保持mask区域的语义一致性。最后，将选择的tokens和模拟的tokens输入到DiT模型中进行处理，得到最终的视频对象移除结果。

关键创新：YOSE的关键创新在于提出了批量变长索引（BVI）和扩散过程模拟器（DiffSim）这两个模块。BVI实现了mask感知的动态token选择，避免了对所有tokens进行计算，从而显著减少了计算量。DiffSim则保证了在只处理部分tokens的情况下，仍然能够保持视频的语义一致性。与现有方法相比，YOSE能够根据mask区域的大小自适应地调整计算量，从而实现更高效的推理。

关键设计：BVI模块使用可微的索引操作，允许梯度反向传播，从而可以进行端到端的训练。DiffSim模块通过近似模拟扩散过程，减少了计算复杂度。具体来说，DiffSim可能使用一些轻量级的网络结构或者预计算的统计信息来模拟未mask区域的影响。损失函数方面，除了常用的重建损失外，可能还引入了感知损失或对抗损失，以提高生成视频的视觉质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，YOSE在保持与baseline相当的视觉质量的前提下，显著提升了推理速度。在70%的情况下，YOSE实现了高达2.5倍的加速。这表明YOSE能够有效地减少计算量，提高推理效率，使其更适用于实时视频处理应用。

🎯 应用场景

YOSE技术可应用于视频编辑、内容创作、安全监控等领域。例如，在视频编辑中，可以快速移除视频中的不需要的对象，提高编辑效率。在安全监控中，可以用于移除视频中的敏感信息，保护隐私。该技术的发展将推动视频处理技术的进步，并为相关应用带来更高效的解决方案。

📄 摘要（原文）

Recent advances in Diffusion Transformer (DiT)-based video generation technologies have shown impressive results for video object removal. However, these methods still suffer from substantial inference latency. For instance, although MiniMax Remover achieves state-of-the-art visual quality, it operates at only around 10FPS, primarily due to dense computations over the entire spatiotemporal token space, even when only a small masked region actually requires processing. In this paper, we present YOSE, You Only Select Essential Tokens, an efficient fine-tuning framework. YOSE introduces two key components: Batch Variable-length Indexing (BVI) and Diffusion Process Simulator (DiffSim) Module. BVI is a differentiable dynamic indexing operator that adaptively selects essential tokens based on mask information, enabling variable-length token processing across samples. DiffSim provides a diffusion process approximation mechanism for unmasked tokens, which simulates the influence of unmasked regions within DiT self-attention to maintain semantic consistency for masked tokens. With these designs, YOSE achieves mask-aware acceleration, where the inference time scales approximately linearly with the masked regions, in contrast to full-token diffusion methods whose computation remains constant regardless of the mask size. Extensive experiments demonstrate that YOSE achieves up to 2.5X speedup in 70% of cases while maintaining visual quality comparable to the baseline. Code is available at: https://github.com/Wucy0519/YOSE-CVPR26.

YOSE: You Only Select Essential Tokens for Efficient DiT-based Video Object Removal

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理