Unified Text-Image-to-Video Generation: A Training-Free Approach to Flexible Visual Conditioning

作者: Bolin Lai, Sangmin Lee, Xu Cao, Xiang Li, James M. Rehg

分类: cs.CV, cs.LG

发布日期: 2025-05-27 (更新: 2025-11-25)

备注: 18 pages, 10 figures, 8 tables

💡 一句话要点

提出FlexTI2V，一种无需训练的统一文本-图像到视频生成方法，实现灵活的视觉条件控制。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到视频生成 图像条件控制 无训练方法 视觉特征融合 随机补丁交换

📋 核心要点

现有文本到视频模型添加视觉条件通常需要微调，成本高且条件设置受限。
FlexTI2V通过图像反演和随机补丁交换，将视觉特征无缝融入视频生成过程。
实验表明，FlexTI2V显著优于现有无训练图像条件方法，并可泛化到不同架构。

📝 摘要（中文）

本文提出了一种统一的文本-图像到视频（TI2V）生成方法，旨在实现灵活的视觉条件控制。现有方法通常通过微调将视觉条件添加到文本到视频（T2V）基础模型中，这不仅耗费资源，而且仅限于少数预定义的条件设置。为了解决这些限制，我们提出了一种用于TI2V生成的统一公式，并提出了一种创新的无需训练的方法，称为FlexTI2V，该方法可以在任意位置以任意数量的图像为T2V基础模型提供条件。具体来说，我们首先将条件图像反演为潜在空间中的噪声表示。然后，在T2V模型的去噪过程中，我们的方法使用一种新颖的随机补丁交换策略，通过局部图像补丁将视觉特征合并到视频表示中。为了平衡创造性和保真度，我们使用动态控制机制来调整每个视频帧的视觉条件强度。大量实验验证了我们的方法明显优于以前的无训练图像条件方法。我们的方法还可以推广到基于UNet和基于Transformer的架构。

🔬 方法详解

问题定义：现有文本到视频（T2V）生成模型在融合视觉条件时，通常需要针对特定视觉条件进行微调，这导致了高昂的计算成本和有限的灵活性。具体来说，每当需要改变视觉条件（例如，图像的数量、位置或类型）时，都需要重新训练模型。这限制了T2V模型在实际应用中的可扩展性和通用性。

核心思路：FlexTI2V的核心思路是利用预训练的T2V基础模型，并通过一种无需训练的方式将视觉信息融入到视频生成过程中。该方法通过将条件图像反演到潜在空间，并在T2V模型的去噪过程中，使用随机补丁交换策略将视觉特征注入到视频表示中。这种方法避免了微调的需要，从而降低了计算成本并提高了灵活性。

技术框架：FlexTI2V的整体框架包括以下几个主要阶段：1) 图像反演：将输入的条件图像反演到T2V模型的潜在空间中，得到图像的噪声表示。2) 视频生成：利用预训练的T2V模型，根据文本提示和图像的噪声表示生成视频。3) 随机补丁交换：在T2V模型的去噪过程中，随机选择图像的局部补丁，并将其与视频帧的对应区域进行交换，从而将视觉特征融入到视频表示中。4) 动态控制：使用动态控制机制来调整每个视频帧的视觉条件强度，以平衡创造性和保真度。

关键创新：FlexTI2V的关键创新在于其无需训练的视觉条件融合方法。与需要微调的现有方法不同，FlexTI2V可以直接利用预训练的T2V模型，并通过随机补丁交换策略将视觉特征注入到视频生成过程中。这种方法不仅降低了计算成本，还提高了灵活性，允许模型处理任意数量和位置的条件图像。

关键设计：FlexTI2V的关键设计包括：1) 随机补丁交换策略：该策略通过随机选择图像的局部补丁并将其与视频帧的对应区域进行交换，从而将视觉特征融入到视频表示中。补丁的大小和交换的频率是重要的参数，需要根据具体任务进行调整。2) 动态控制机制：该机制用于调整每个视频帧的视觉条件强度，以平衡创造性和保真度。该机制可以根据视频帧的内容和视觉条件的质量动态地调整视觉条件的权重。3) 潜在空间反演：使用预训练的图像编码器将条件图像反演到T2V模型的潜在空间中。反演的质量直接影响视觉条件融合的效果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FlexTI2V在图像条件视频生成任务上显著优于现有的无训练方法。具体来说，FlexTI2V在多个指标上取得了明显的提升，包括视频质量、内容相关性和视觉保真度。与基线方法相比，FlexTI2V能够生成更逼真、更符合用户意图的视频内容。此外，实验还验证了FlexTI2V可以泛化到基于UNet和Transformer的不同架构。

🎯 应用场景

FlexTI2V在视频编辑、内容创作、虚拟现实等领域具有广泛的应用前景。例如，用户可以通过输入文本描述和参考图像，生成符合特定风格和内容的视频。该技术还可以用于创建个性化的教育视频、游戏场景和广告内容，极大地提升了内容创作的效率和灵活性。未来，该技术有望应用于更复杂的场景，例如基于用户交互的视频生成和增强现实应用。

📄 摘要（原文）

Text-image-to-video (TI2V) generation is a critical problem for controllable video generation using both semantic and visual conditions. Most existing methods typically add visual conditions to text-to-video (T2V) foundation models by finetuning, which is costly in resources and only limited to a few pre-defined conditioning settings. To tackle these constraints, we introduce a unified formulation for TI2V generation with flexible visual conditioning. Furthermore, we propose an innovative training-free approach, dubbed FlexTI2V, that can condition T2V foundation models on an arbitrary amount of images at arbitrary positions. Specifically, we firstly invert the condition images to noisy representation in a latent space. Then, in the denoising process of T2V models, our method uses a novel random patch swapping strategy to incorporate visual features into video representations through local image patches. To balance creativity and fidelity, we use a dynamic control mechanism to adjust the strength of visual conditioning to each video frame. Extensive experiments validate that our method surpasses previous training-free image conditioning methods by a notable margin. Our method can also generalize to both UNet-based and transformer-based architectures.

Unified Text-Image-to-Video Generation: A Training-Free Approach to Flexible Visual Conditioning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理