FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

📄 arXiv: 2604.22586v1 📥 PDF

作者: Ze Chen, Lan Chen, Yuanhang Li, Qi Mao

分类: cs.CV

发布日期: 2026-04-24

备注: Under review

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出FlowAnchor,稳定编辑信号,实现免反演的视频编辑

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 视频编辑 免反演编辑 光流 注意力机制 视频生成 时间一致性 空间感知

📋 核心要点

  1. 现有免反演视频编辑方法在多对象或长视频中,编辑信号不稳定,导致编辑效果不佳。
  2. FlowAnchor通过空间感知注意力细化和自适应幅度调制,显式地锚定编辑位置和强度,稳定编辑信号。
  3. 实验表明,FlowAnchor在多对象和快速运动场景中,实现了更忠实、时间连贯且高效的视频编辑。

📝 摘要(中文)

本文提出FlowAnchor,一个免训练的框架,用于稳定且高效的基于光流的免反演视频编辑。免反演编辑方法最近在图像领域展现了令人印象深刻的效率和结构保持能力,通过直接利用编辑信号引导采样轨迹来实现。然而,将这种范式扩展到视频领域仍然具有挑战性,经常在多对象场景或帧数增加时失效。我们发现根本原因是高维视频潜在空间中编辑信号的不稳定性,这源于不精确的空间定位和长度引起的幅度衰减。为了克服这一挑战,FlowAnchor显式地锚定编辑的位置和编辑的强度。它引入了空间感知注意力细化模块,强制文本指导和空间区域之间的一致对齐,以及自适应幅度调制模块,自适应地保持足够的编辑强度。这些机制共同稳定了编辑信号,并引导基于光流的演化朝着期望的目标分布发展。大量实验表明,FlowAnchor在具有挑战性的多对象和快速运动场景中实现了更忠实、时间上更连贯且计算效率更高的视频编辑。

🔬 方法详解

问题定义:现有的免反演视频编辑方法在处理复杂视频(如多对象场景或帧数较多的视频)时,由于视频潜在空间维度高,编辑信号容易不稳定,导致编辑结果不准确、时间连贯性差。根本原因在于编辑信号的空间定位不精确,以及随着视频长度增加,编辑信号的幅度会衰减。

核心思路:FlowAnchor的核心思路是显式地锚定编辑信号的位置和强度,从而稳定编辑过程。具体来说,它通过空间感知注意力细化(Spatial-aware Attention Refinement)来确保编辑信号能够准确地定位到需要编辑的区域,并通过自适应幅度调制(Adaptive Magnitude Modulation)来保持编辑信号的强度,防止其衰减。

技术框架:FlowAnchor框架主要包含两个关键模块:空间感知注意力细化模块和自适应幅度调制模块。首先,空间感知注意力细化模块利用注意力机制,将文本指导与视频帧中的空间区域对齐,从而提高编辑信号的空间定位精度。然后,自适应幅度调制模块根据视频内容和编辑需求,动态地调整编辑信号的幅度,以保持足够的编辑强度。这两个模块协同工作,共同稳定编辑信号,引导基于光流的视频编辑过程。

关键创新:FlowAnchor的关键创新在于它显式地解决了免反演视频编辑中编辑信号不稳定的问题。与现有方法不同,FlowAnchor不是隐式地学习如何稳定编辑信号,而是通过明确的设计来锚定编辑信号的位置和强度。这种显式的方法使得FlowAnchor能够更好地控制编辑过程,从而获得更准确、更连贯的编辑结果。

关键设计:空间感知注意力细化模块使用Transformer结构,将文本嵌入和视频帧的特征图作为输入,通过注意力机制学习文本和空间区域之间的对应关系。自适应幅度调制模块使用一个小型神经网络,根据视频帧的特征和文本嵌入,预测一个幅度调整因子,用于调整编辑信号的强度。损失函数主要包括编辑损失和时间一致性损失,用于确保编辑结果的准确性和时间连贯性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FlowAnchor在多对象和快速运动场景中,相较于现有方法,能够生成更忠实、时间连贯的视频编辑结果。具体而言,FlowAnchor在编辑准确率和时间一致性指标上均取得了显著提升。定性结果也表明,FlowAnchor能够更好地保持视频的结构和细节,避免出现伪影和失真。

🎯 应用场景

FlowAnchor在视频内容创作、后期制作、虚拟现实等领域具有广泛的应用前景。它可以用于快速、高效地编辑视频内容,例如修改视频中的对象外观、改变场景风格等。此外,FlowAnchor还可以应用于虚拟现实场景的编辑,例如修改虚拟人物的服装、改变虚拟环境的布局等。该研究有望降低视频编辑的门槛,提高视频编辑的效率,促进视频内容创作的繁荣。

📄 摘要(原文)

We propose FlowAnchor, a training-free framework for stable and efficient inversion-free, flow-based video editing. Inversion-free editing methods have recently shown impressive efficiency and structure preservation in images by directly steering the sampling trajectory with an editing signal. However, extending this paradigm to videos remains challenging, often failing in multi-object scenes or with increased frame counts. We identify the root cause as the instability of the editing signal in high-dimensional video latent spaces, which arises from imprecise spatial localization and length-induced magnitude attenuation. To overcome this challenge, FlowAnchor explicitly anchors both where to edit and how strongly to edit. It introduces Spatial-aware Attention Refinement, which enforces consistent alignment between textual guidance and spatial regions, and Adaptive Magnitude Modulation, which adaptively preserves sufficient editing strength. Together, these mechanisms stabilize the editing signal and guide the flow-based evolution toward the desired target distribution. Extensive experiments demonstrate that FlowAnchor achieves more faithful, temporally coherent, and computationally efficient video editing across challenging multi-object and fast-motion scenarios. The project page is available at https://cuc-mipg.github.io/FlowAnchor.github.io/.