Dynamic-I2V: Exploring Image-to-Video Generation Models via Multimodal LLM

作者: Peng Liu, Xiaoming Ren, Fengkai Liu, Qingsong Xie, Quanlong Zheng, Yanhao Zhang, Haonan Lu, Yujiu Yang

分类: cs.CV

发布日期: 2025-05-26 (更新: 2025-06-03)

💡 一句话要点

提出Dynamic-I2V以解决复杂场景下图像到视频生成问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像到视频生成 多模态大语言模型 扩散变换器 动态视频评估 运动可控性 时间一致性 生成模型 视频质量

📋 核心要点

现有图像到视频生成方法在处理复杂场景时，难以有效理解细微的运动和复杂的物体-动作关系。
Dynamic-I2V框架通过整合多模态大语言模型，增强了对视觉和文本条件的编码能力，从而改善了生成视频的运动可控性和时间一致性。
实验结果表明，Dynamic-I2V在动态范围、可控性和视频质量上分别提升了42.5%、7.9%和11.8%，显示出显著的性能优势。

📝 摘要（中文）

近年来，图像到视频（I2V）生成的进展在常规场景中表现出色。然而，现有方法在处理复杂场景时仍面临重大挑战，尤其是在理解细微运动和复杂物体-动作关系方面。为此，本文提出了Dynamic-I2V框架，结合多模态大语言模型（MLLMs）共同编码视觉和文本条件，以增强扩散变换器（DiT）架构的性能。通过利用MLLMs的多模态理解能力，模型显著提高了合成视频的运动可控性和时间一致性。此外，Dynamic-I2V的多模态特性支持多样的条件输入，扩展了其在下游生成任务中的适用性。我们还提出了DIVE评估基准，以解决现有I2V基准在动态视频评估中的偏差问题。实验结果表明，Dynamic-I2V在图像到视频生成中达到了最先进的性能，动态范围、可控性和质量分别提升42.5%、7.9%和11.8%。

🔬 方法详解

问题定义：本文旨在解决现有图像到视频生成方法在复杂场景下的不足，特别是对细微运动和复杂物体-动作关系的理解能力不足。现有基准测试存在偏向低动态视频的问题，导致评估不全面。

核心思路：Dynamic-I2V框架通过引入多模态大语言模型（MLLMs），实现视觉和文本条件的联合编码，从而提升生成视频的运动可控性和时间一致性。这种设计利用了MLLMs在多模态理解方面的优势，增强了模型的生成能力。

技术框架：Dynamic-I2V的整体架构包括多个模块：首先是视觉和文本条件的输入模块，然后是基于扩散变换器（DiT）的生成模块，最后是输出视频的后处理模块。各模块协同工作，确保生成视频的质量和一致性。

关键创新：本文的主要创新在于将多模态大语言模型与图像到视频生成相结合，显著提升了模型在复杂场景下的表现。这一方法与传统I2V方法的本质区别在于其对多模态信息的深度融合和理解。

关键设计：在模型设计中，采用了特定的损失函数来平衡运动复杂性和视觉质量，同时在网络结构上进行了优化，以适应多模态输入的需求。

📊 实验亮点

实验结果显示，Dynamic-I2V在图像到视频生成任务中表现出色，特别是在动态范围、可控性和视频质量方面，分别提升了42.5%、7.9%和11.8%。这些结果通过新的DIVE评估基准得以验证，表明该方法在生成动态视频方面的显著优势。

🎯 应用场景

Dynamic-I2V的研究成果在多个领域具有广泛的应用潜力，包括电影制作、游戏开发、虚拟现实和增强现实等。通过生成高质量的动态视频，该技术能够为创作者提供更丰富的内容生成工具，提升用户体验。此外，未来可能在教育、广告等领域发挥重要作用，推动多媒体内容的创新与发展。

📄 摘要（原文）

Recent advancements in image-to-video (I2V) generation have shown promising performance in conventional scenarios. However, these methods still encounter significant challenges when dealing with complex scenes that require a deep understanding of nuanced motion and intricate object-action relationships. To address these challenges, we present Dynamic-I2V, an innovative framework that integrates Multimodal Large Language Models (MLLMs) to jointly encode visual and textual conditions for a diffusion transformer (DiT) architecture. By leveraging the advanced multimodal understanding capabilities of MLLMs, our model significantly improves motion controllability and temporal coherence in synthesized videos. The inherent multimodality of Dynamic-I2V further enables flexible support for diverse conditional inputs, extending its applicability to various downstream generation tasks. Through systematic analysis, we identify a critical limitation in current I2V benchmarks: a significant bias towards favoring low-dynamic videos, stemming from an inadequate balance between motion complexity and visual quality metrics. To resolve this evaluation gap, we propose DIVE - a novel assessment benchmark specifically designed for comprehensive dynamic quality measurement in I2V generation. In conclusion, extensive quantitative and qualitative experiments confirm that Dynamic-I2V attains state-of-the-art performance in image-to-video generation, particularly revealing significant improvements of 42.5%, 7.9%, and 11.8% in dynamic range, controllability, and quality, respectively, as assessed by the DIVE metric in comparison to existing methods.

Dynamic-I2V: Exploring Image-to-Video Generation Models via Multimodal LLM

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册