Dynamic-I2V: Exploring Image-to-Video Generation Models via Multimodal LLM

作者: Peng Liu, Xiaoming Ren, Fengkai Liu, Qingsong Xie, Quanlong Zheng, Yanhao Zhang, Haonan Lu, Yujiu Yang

分类: cs.CV

发布日期: 2025-05-26 (更新: 2025-06-03)

💡 一句话要点

提出Dynamic-I2V，利用多模态LLM提升图像到视频生成中的动态性和可控性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像到视频生成 多模态LLM 扩散模型 视频生成 动态性 可控性 DIVE评估基准 DiT

📋 核心要点

现有图像到视频生成方法在处理复杂场景时，对细微运动和复杂对象-动作关系的理解不足。
Dynamic-I2V利用多模态LLM联合编码视觉和文本条件，提升运动可控性和时间一致性。
实验表明，Dynamic-I2V在动态范围、可控性和质量方面均优于现有方法，DIVE指标提升显著。

📝 摘要（中文）

本文提出Dynamic-I2V，一个创新的框架，它集成了多模态大型语言模型（MLLM）来联合编码视觉和文本条件，用于扩散Transformer（DiT）架构。通过利用MLLM先进的多模态理解能力，该模型显著提高了合成视频中的运动可控性和时间一致性。Dynamic-I2V固有的多模态性进一步实现了对多样化条件输入的灵活支持，将其适用性扩展到各种下游生成任务。通过系统分析，我们发现当前I2V基准测试中的一个关键限制：严重偏向于低动态视频，这是由于运动复杂性和视觉质量指标之间的不平衡造成的。为了解决这个评估差距，我们提出了DIVE——一种专门为全面测量I2V生成中的动态质量而设计的新型评估基准。大量的定量和定性实验证实，Dynamic-I2V在图像到视频生成中达到了最先进的性能，特别是在DIVE指标评估中，与现有方法相比，动态范围、可控性和质量分别显著提高了42.5%、7.9%和11.8%。

🔬 方法详解

问题定义：现有图像到视频（I2V）生成方法在处理复杂场景时，难以准确捕捉细微的运动和对象间的复杂交互关系，导致生成的视频在动态性和时间一致性方面表现不佳。现有的I2V评估基准也存在偏差，更倾向于评估低动态的视频，无法全面衡量模型在动态场景下的生成能力。

核心思路：Dynamic-I2V的核心思路是利用多模态大型语言模型（MLLM）强大的视觉和文本理解能力，将图像和文本信息进行联合编码，从而更好地理解场景中的对象、动作和它们之间的关系。通过MLLM的理解，模型可以生成更具动态性和时间一致性的视频。

技术框架：Dynamic-I2V的整体架构基于扩散Transformer（DiT）。首先，使用MLLM对输入的图像和文本条件进行编码，得到联合的视觉-文本特征表示。然后，将这些特征输入到DiT中，DiT通过扩散过程逐步生成视频帧。整个框架包含MLLM编码器和DiT解码器两个主要模块。

关键创新：Dynamic-I2V最重要的创新点在于引入了MLLM进行视觉和文本条件的联合编码。与传统的I2V方法相比，Dynamic-I2V能够更深入地理解场景中的语义信息，从而生成更逼真、更可控的视频。此外，论文还提出了DIVE评估基准，用于更全面地评估I2V模型在动态场景下的生成能力。

关键设计：在MLLM编码器方面，论文采用了预训练的MLLM模型，并对其进行了微调，以适应I2V生成任务。在DiT解码器方面，论文采用了标准的DiT架构，并对其进行了一些优化，以提高生成视频的质量和效率。损失函数方面，论文采用了标准的扩散模型损失函数，并添加了一些正则化项，以提高生成视频的时间一致性。

📊 实验亮点

Dynamic-I2V在图像到视频生成任务中取得了显著的性能提升。在DIVE评估基准上，Dynamic-I2V的动态范围提高了42.5%，可控性提高了7.9%，质量提高了11.8%，表明该方法在生成动态视频方面具有显著优势。实验结果表明，Dynamic-I2V能够生成更逼真、更可控的视频，优于现有的I2V生成方法。

🎯 应用场景

Dynamic-I2V具有广泛的应用前景，包括视频编辑、游戏开发、电影制作、虚拟现实和增强现实等领域。它可以根据单张图像生成逼真的视频，为内容创作提供便利。此外，该研究提出的DIVE评估基准，可以促进I2V生成领域的发展，推动相关技术的进步。

📄 摘要（原文）

Recent advancements in image-to-video (I2V) generation have shown promising performance in conventional scenarios. However, these methods still encounter significant challenges when dealing with complex scenes that require a deep understanding of nuanced motion and intricate object-action relationships. To address these challenges, we present Dynamic-I2V, an innovative framework that integrates Multimodal Large Language Models (MLLMs) to jointly encode visual and textual conditions for a diffusion transformer (DiT) architecture. By leveraging the advanced multimodal understanding capabilities of MLLMs, our model significantly improves motion controllability and temporal coherence in synthesized videos. The inherent multimodality of Dynamic-I2V further enables flexible support for diverse conditional inputs, extending its applicability to various downstream generation tasks. Through systematic analysis, we identify a critical limitation in current I2V benchmarks: a significant bias towards favoring low-dynamic videos, stemming from an inadequate balance between motion complexity and visual quality metrics. To resolve this evaluation gap, we propose DIVE - a novel assessment benchmark specifically designed for comprehensive dynamic quality measurement in I2V generation. In conclusion, extensive quantitative and qualitative experiments confirm that Dynamic-I2V attains state-of-the-art performance in image-to-video generation, particularly revealing significant improvements of 42.5%, 7.9%, and 11.8% in dynamic range, controllability, and quality, respectively, as assessed by the DIVE metric in comparison to existing methods.

Dynamic-I2V: Exploring Image-to-Video Generation Models via Multimodal LLM

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理