Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos

📄 arXiv: 2605.18233v1 📥 PDF

作者: X. Feng, J. Zhu, M. Wu, C. Chen, F. Mao, H. Guo, J. Wu, X. Chu, K. Huang

分类: cs.CV

发布日期: 2026-05-18

备注: Accepted by ICML 2026~

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出MIGA,增强无训练无限帧生成,实现一致性长视频生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频生成 无限帧生成 无训练生成 时间一致性 自回归模型

📋 核心要点

  1. 现有无训练长视频生成方法受限于训练与推理的差异,难以保持长期一致性,无法充分利用预训练模型。
  2. MIGA通过两阶段对齐机制缓解训练-推理差距,并引入双重一致性增强机制提升时间一致性。
  3. 实验表明,MIGA在VBench和NarrLV数据集上取得了SOTA性能,验证了其有效性。

📝 摘要(中文)

本文提出了一种名为MIGA的全新无限帧长视频生成方法,旨在解决现有基础视频生成模型在无训练条件下生成长视频时所面临的挑战。现有基于帧级别自回归框架(如FIFO-diffusion)的方法虽然能够以恒定的内存消耗生成无限长的视频,但由于训练和推理之间的不匹配,以及维持长期一致性的困难,导致基础模型无法得到有效利用。MIGA通过有效的两阶段对齐机制来缓解训练-推理差距,减少模型接收到的过度噪声跨度。此外,MIGA还引入了一种创新的双重一致性增强机制,其中自反思方法纠正早期高噪声帧,而长程帧引导方法利用后期低噪声帧进行广泛覆盖以指导生成,共同提高时间一致性。在VBench和NarrLV上的大量实验表明,MIGA达到了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决在不进行额外训练的情况下,如何利用现有的基础视频生成模型生成更长且时间一致性更好的视频。现有的自回归方法,如FIFO-diffusion,虽然可以生成无限长度的视频,但由于训练和推理阶段存在差异(例如,推理时需要处理更长的噪声跨度),以及难以维持长时间的一致性,导致生成质量下降。因此,如何弥合训练和推理之间的差距,并提高生成视频的时间一致性是关键问题。

核心思路:MIGA的核心思路是通过两阶段对齐机制来减小训练和推理之间的差异,并通过双重一致性增强机制来提高生成视频的时间一致性。具体来说,两阶段对齐机制旨在减少模型在推理阶段需要处理的噪声跨度,使其更接近训练阶段的分布。双重一致性增强机制则通过自反思和长程帧引导两种方式,分别纠正早期帧的错误并利用后期帧的信息来指导生成,从而提高整体的时间一致性。

技术框架:MIGA的整体框架包含以下几个主要模块:1) 两阶段对齐机制:用于减小训练和推理之间的差异。2) 自反思模块:用于纠正早期高噪声帧的错误。3) 长程帧引导模块:利用后期低噪声帧的信息来指导生成。整个流程首先通过两阶段对齐机制对输入进行处理,然后通过自回归的方式生成视频帧,并在生成过程中利用自反思模块和长程帧引导模块来提高时间一致性。

关键创新:MIGA的关键创新在于其双重一致性增强机制,特别是自反思模块和长程帧引导模块的结合使用。自反思模块通过对早期帧进行自我评估和修正,有效地减少了噪声的影响。长程帧引导模块则利用了后期帧的全局信息,为生成过程提供了更强的约束,从而提高了整体的时间一致性。这种双重机制的结合,使得MIGA能够生成更长且时间一致性更好的视频。

关键设计:两阶段对齐机制的具体实现细节未知,但其目标是减少模型需要处理的噪声跨度。自反思模块的具体实现方式也未知,但其核心思想是对早期帧进行自我评估和修正。长程帧引导模块可能涉及到注意力机制或类似的全局信息融合方法,以利用后期帧的信息来指导生成。具体的参数设置、损失函数和网络结构等细节在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MIGA在VBench和NarrLV数据集上取得了SOTA性能,表明其在长视频生成方面具有显著优势。具体的性能数据和提升幅度需要在论文中查找,但摘要强调了MIGA的优越性,证明了其在时间一致性方面的有效改进。

🎯 应用场景

MIGA具有广泛的应用前景,例如电影制作、游戏开发、虚拟现实、广告创意等领域。它可以帮助用户快速生成高质量的长视频内容,降低视频制作的成本和门槛。此外,MIGA还可以应用于视频编辑、视频修复等领域,提高视频处理的效率和质量。未来,MIGA有望成为一种重要的视频生成工具,推动视频内容创作的创新和发展。

📄 摘要(原文)

Without incurring significant computational overhead, train-free long video generation aims to enable foundation video generation models to produce longer videos. Frame-level autoregressive frameworks, e.g., FIFO-diffusion, offer the advantage of generating infinitely long videos with constant memory consumption. However, the mismatch between training and inference, coupled with the challenge of maintaining long-term consistency, limits the effective utilization of foundation models. To mitigate these concerns, we propose \textbf{MIGA}, a novel infinite-frame long video generation method. Firstly, we propose an effective two-stage alignment mechanism that mitigates the training-inference gap by reducing the excessive noise span fed to the model. We then introduce an innovative dual consistency enhancement mechanism, where the self-reflection approach corrects early high-noise frames and the long-range frame guidance approach leverages later low-noise frames with broad coverage to steer generation, jointly improving temporal consistency. Extensive experiments on VBench and NarrLV demonstrate the state-of-the-art performance of MIGA. Our project page is available at https://xiaokunfeng.github.io/miga_homepage/.