Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!
作者: Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang
分类: cs.CV
发布日期: 2025-10-03 (更新: 2025-10-20)
💡 一句话要点
提出DragStream,实现基于拖拽的流式交互视频编辑,支持任意对象、任意时刻的精细控制。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 视频编辑 交互式操作 流式处理 扩散模型 潜在空间 拖拽操作 自适应校正
📋 核心要点
- 现有自回归视频扩散模型难以实现流式、精细的控制,无法保证生成结果与用户期望一致。
- 提出DragStream,通过自适应分布自校正和空间-频率选择性优化,解决潜在分布漂移和上下文干扰问题。
- 实验表明,DragStream能有效集成到现有模型,实现高质量的流式拖拽交互视频编辑。
📝 摘要(中文)
本文提出了一项新的任务:流式拖拽导向的交互视频编辑(REVEL),旨在让用户能够通过精细的交互式拖拽,在任意时刻修改生成的视频中的任意对象。与DragVideo和SG-I2V相比,REVEL统一了拖拽式视频操作,支持用户指定的平移、形变和旋转效果,使拖拽操作更加通用。在解决REVEL任务时,我们观察到:(i)拖拽引起的扰动在潜在空间中累积,导致严重的潜在分布漂移,从而停止拖拽过程;(ii)流式拖拽容易受到上下文帧的干扰,从而产生视觉上不自然的结果。因此,我们提出了一种无需训练的方法DragStream,包括:(i)一种自适应分布自校正策略,利用相邻帧的统计信息来有效地约束潜在嵌入的漂移;(ii)一种空间-频率选择性优化机制,允许模型充分利用上下文信息,同时通过选择性地传播视觉线索来减轻其干扰。我们的方法可以无缝集成到现有的自回归视频扩散模型中,并且大量的实验有力地证明了DragStream的有效性。
🔬 方法详解
问题定义:现有方法难以在自回归视频扩散模型中实现流式、精细的交互式控制,用户无法随时随地通过拖拽操作编辑视频内容。潜在分布漂移和上下文帧干扰是主要痛点,导致拖拽过程受阻和生成结果不自然。
核心思路:DragStream的核心思路是通过自适应地校正潜在分布漂移,并选择性地利用上下文信息,从而实现稳定、自然的流式拖拽编辑。通过约束潜在空间的漂移,保证拖拽操作的连续性;通过选择性地传播视觉线索,减少上下文干扰,提升生成质量。
技术框架:DragStream主要包含两个核心模块:自适应分布自校正(Adaptive Distribution Self-Rectification)和空间-频率选择性优化(Spatial-Frequency Selective Optimization)。自适应分布自校正模块利用相邻帧的统计信息来约束当前帧的潜在嵌入,防止漂移。空间-频率选择性优化模块则通过分析上下文帧的空间和频率信息,选择性地传播视觉线索,抑制干扰。整个流程无需重新训练模型,可以无缝集成到现有的自回归视频扩散模型中。
关键创新:DragStream的关键创新在于其训练无关性(training-free)和对潜在空间漂移的自适应校正。与需要大量训练数据的现有方法不同,DragStream可以直接应用于预训练的视频扩散模型,无需额外训练。自适应分布自校正策略能够动态地调整校正强度,更好地适应不同的拖拽操作。
关键设计:自适应分布自校正模块使用相邻帧的均值和方差来约束当前帧的潜在嵌入,具体公式未知(论文未明确给出)。空间-频率选择性优化模块可能涉及对上下文帧进行傅里叶变换,然后根据频率分量的重要性进行加权,具体实现细节未知(论文未明确给出)。损失函数方面,由于是训练无关方法,因此没有额外的损失函数设计。
🖼️ 关键图片
📊 实验亮点
DragStream无需训练即可集成到现有自回归视频扩散模型中,有效解决了流式拖拽编辑中的潜在分布漂移和上下文干扰问题。实验结果表明,DragStream能够生成高质量、自然的流式拖拽编辑视频,显著提升了用户体验。具体性能数据和对比基线未知(论文未明确给出)。
🎯 应用场景
DragStream具有广泛的应用前景,例如视频内容创作、游戏开发、虚拟现实等领域。用户可以利用该技术轻松地编辑和操控视频内容,实现个性化的视频生成和编辑。该技术还可以应用于智能监控、机器人控制等领域,提高人机交互的效率和自然性。
📄 摘要(原文)
Achieving streaming, fine-grained control over the outputs of autoregressive video diffusion models remains challenging, making it difficult to ensure that they consistently align with user expectations. To bridge this gap, we propose \textbf{stReaming drag-oriEnted interactiVe vidEo manipuLation (REVEL)}, a new task that enables users to modify generated videos \emph{anytime} on \emph{anything} via fine-grained, interactive drag. Beyond DragVideo and SG-I2V, REVEL unifies drag-style video manipulation as editing and animating video frames with both supporting user-specified translation, deformation, and rotation effects, making drag operations versatile. In resolving REVEL, we observe: \emph{i}) drag-induced perturbations accumulate in latent space, causing severe latent distribution drift that halts the drag process; \emph{ii}) streaming drag is easily disturbed by context frames, thereby yielding visually unnatural outcomes. We thus propose a training-free approach, \textbf{DragStream}, comprising: \emph{i}) an adaptive distribution self-rectification strategy that leverages neighboring frames' statistics to effectively constrain the drift of latent embeddings; \emph{ii}) a spatial-frequency selective optimization mechanism, allowing the model to fully exploit contextual information while mitigating its interference via selectively propagating visual cues along generation. Our method can be seamlessly integrated into existing autoregressive video diffusion models, and extensive experiments firmly demonstrate the effectiveness of our DragStream.