FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching
作者: Jangho Park, Geon Yeong Park, Gihyun Kwon, Jong Chul Ye
分类: cs.CV
发布日期: 2026-05-20
备注: Project Page: https://flowlong-video.github.io/
💡 一句话要点
提出FlowLong以解决长视频生成的质量与一致性问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 长视频生成 视频扩散模型 Tweedie匹配 时间一致性 无训练方法 多模态生成 视觉质量 随机采样
📋 核心要点
- 现有方法在长视频生成中面临质量下降和时间一致性不足的问题,尤其是双向模型和自回归模型各有缺陷。
- 本文提出了一种基于重叠滑动窗口的推理时间生成方法,通过Tweedie匹配实现流形约束和时间一致性,且不依赖于特定架构。
- 实验结果表明,该方法在生成视频的长度、时间一致性和视觉质量上均显著优于现有的无训练和自回归基线。
📝 摘要(中文)
扩展视频扩散模型的生成范围至长序列一直是一个重要挑战。现有的无训练方法主要分为两类:一种是双向模型扩展,受限于特定架构且在长时间序列上质量下降;另一种是自回归模型,由于曝光偏差而累积漂移误差,容易产生重复的运动模式。为了解决这些问题,本文提出了一种新颖且简单的推理时间长视频生成方法,该方法不依赖于特定架构且无需额外训练。我们的方法通过重叠滑动窗口生成长视频,利用Tweedie匹配在重叠区域内强制执行流形约束和时间一致性。随机早期阶段采样在每次Tweedie匹配修正后注入新噪声,以同步每个窗口的轨迹,随后过渡到确定性ODE采样以保持细粒度的视觉保真度。该方法在多种视频生成模型上应用,生成的视频长度是原始窗口长度的数倍,同时在时间一致性和视觉质量上超越了无训练和自回归基线,并进一步扩展到音视频联合生成和文本到3DGS,无需任何微调。
🔬 方法详解
问题定义:本文旨在解决长视频生成中的质量下降和时间一致性不足的问题。现有的双向模型和自回归模型在长时间序列生成中存在明显的局限性,导致生成视频的质量和一致性不理想。
核心思路:论文提出了一种推理时间的长视频生成方法,通过重叠滑动窗口生成视频,并利用Tweedie匹配来确保重叠区域的流形约束和时间一致性。这种设计使得方法不依赖于特定的网络架构,具有更好的通用性。
技术框架:整体架构包括两个主要阶段:首先,通过重叠滑动窗口生成视频片段;其次,利用Tweedie匹配在重叠区域进行样本融合,确保时间一致性。随机早期阶段采样用于在高噪声阶段注入新噪声,随后转向确定性ODE采样以保持视觉细节。
关键创新:最重要的创新点在于引入了Tweedie匹配机制,强制执行流形约束和时间一致性,这是与现有方法的本质区别。该方法在推理阶段实现了长视频生成的高效性和质量提升。
关键设计:在参数设置上,采用了重叠窗口的大小和滑动步长的优化设计,以平衡生成效率和视频质量。同时,损失函数设计上考虑了时间一致性和视觉保真度的综合评估。
🖼️ 关键图片
📊 实验亮点
实验结果显示,FlowLong生成的视频长度是原始窗口长度的数倍,同时在时间一致性和视觉质量上超越了现有的无训练和自回归基线,具体提升幅度在视觉质量上达到了显著的改善,验证了方法的有效性。
🎯 应用场景
该研究的潜在应用领域包括电影制作、游戏开发和虚拟现实等场景,能够为长视频生成提供高质量的解决方案。其无训练的特性也使得在不同应用中具有更高的灵活性和适应性,未来可能推动多模态生成技术的发展。
📄 摘要(原文)
Extending the generation horizon of video diffusion models to long sequences remains a long-standing and important challenge. Existing training-free approaches fall into two categories: extensions of bidirectional models, which are tightly coupled to specific architectures and suffer from quality degradation over long horizons, and autoregressive models, which accumulate drift errors due to exposure bias and tend to produce repetitive motion patterns. To address these issues, we propose a novel but simple inference-time approach for long video generation that is architecture-agnostic and requires no additional training. Our method generates long videos via overlapping sliding windows, where predicted clean samples from adjacent windows are blended via \emph{Tweedie matching} to enforce both \textbf{manifold constraint and temporal consistency} across overlap regions. \emph{Stochastic early-phase sampling} then synchronizes per-window trajectories by injecting fresh noise after each Tweedie matching correction in the high-noise phase, before transitioning to deterministic ODE sampling to preserve fine-grained visual fidelity. Applied to various video generation models, our method generates videos several times longer than the native window length while outperforming both training-free and autoregressive baselines in temporal consistency and visual quality, and further extends to audio-video joint generation and text-to-3DGS without any fine-tuning.