IPO: Iterative Preference Optimization for Text-to-Video Generation

作者: Xiaomeng Yang, Zhiyu Tan, Hao Li

分类: cs.CV, cs.AI

发布日期: 2025-02-04 (更新: 2025-03-09)

💡 一句话要点

提出迭代偏好优化（IPO）方法，提升文本到视频生成模型的视频质量。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到视频生成 偏好学习 迭代优化 多模态学习 视频质量评估 后训练 大型语言模型

📋 核心要点

现有文本到视频生成模型难以满足应用需求，主要挑战在于生成视频的质量，如主题一致性、运动平滑性和美学质量等方面。
论文提出迭代偏好优化（IPO）策略，通过整合人类反馈来提升视频质量，核心是利用评论模型进行视频质量评估和偏好学习。
实验结果表明，IPO能有效提升预训练模型的视频生成质量，甚至使小模型超越大模型，并在VBench基准测试中取得SOTA性能。

📝 摘要（中文）

视频基础模型借助网络升级和模型规模扩展取得了显著进展。然而，由于生成质量未达到要求，它们仍然难以满足应用需求。为了解决这个问题，本文提出从后训练的角度出发，将视频基础模型与人类偏好对齐。为此，我们引入了一种迭代偏好优化（IPO）策略，通过整合人类反馈来提高生成的视频质量。具体而言，IPO利用一个评论模型来判断视频生成结果，进行成对排序（如直接偏好优化）或逐点评分（如卡尼曼-特沃斯基优化）。在此基础上，IPO在偏好反馈信号的指导下优化视频基础模型，从而提高生成视频在主题一致性、运动平滑性和美学质量等方面的表现。此外，IPO将评论模型与多模态大型语言模型相结合，使其能够自动分配偏好标签，而无需重新训练或重新标记。通过这种方式，IPO可以高效地以迭代方式执行多轮偏好优化，而无需繁琐的手动标记。综合实验表明，所提出的IPO可以有效地提高预训练模型的视频生成质量，并帮助一个只有20亿参数的模型超越一个拥有50亿参数的模型。此外，IPO在VBench基准测试中取得了新的最先进性能。

🔬 方法详解

问题定义：论文旨在解决文本到视频生成模型生成视频质量不高的问题，具体体现在主题一致性差、运动不平滑、美学质量低等方面。现有方法依赖于大规模数据训练，但难以有效对齐人类偏好，导致生成结果不尽如人意。

核心思路：论文的核心思路是通过后训练的方式，利用人类偏好反馈来优化视频生成模型。通过迭代地收集偏好数据，训练一个评论模型来评估视频质量，并利用该模型指导生成模型的优化，从而使生成结果更符合人类的审美和期望。

技术框架：IPO方法包含以下主要模块：1) 视频生成模型：使用预训练的文本到视频生成模型作为基础。2) 评论模型：用于评估生成视频的质量，可以采用成对排序或逐点评分的方式。3) 偏好数据收集：通过人工或自动的方式收集人类对生成视频的偏好数据。4) 模型优化：利用偏好数据和评论模型，迭代地优化视频生成模型。

关键创新：论文的关键创新在于提出了迭代偏好优化的框架，并结合多模态大型语言模型自动生成偏好标签，无需人工标注，从而实现了高效的多轮偏好优化。此外，该方法将评论模型与生成模型解耦，使得可以灵活地选择和替换评论模型。

关键设计：论文使用预训练的文本到视频生成模型作为基础，并采用多模态大型语言模型作为评论模型，自动生成偏好标签。在模型优化阶段，可以使用不同的损失函数，如直接偏好优化（DPO）或卡尼曼-特沃斯基优化（KTO）。迭代轮数和学习率等超参数需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

IPO方法在VBench基准测试中取得了新的SOTA性能，表明其在提升视频生成质量方面的有效性。实验还表明，通过IPO优化，一个只有20亿参数的模型可以超越一个拥有50亿参数的模型，证明了该方法在提升模型效率方面的潜力。自动偏好标签生成也大大降低了人工标注的成本。

🎯 应用场景

该研究成果可广泛应用于视频内容创作、广告生成、游戏开发、虚拟现实等领域。通过与人类偏好对齐，可以生成更具吸引力、更符合用户需求的视频内容，提高用户体验和商业价值。未来，该方法有望应用于更复杂的视频生成任务，如长视频生成、交互式视频生成等。

📄 摘要（原文）

Video foundation models have achieved significant advancement with the help of network upgrade as well as model scale-up. However, they are still hard to meet requirements of applications due to unsatisfied generation quality. To solve this problem, we propose to align video foundation models with human preferences from the perspective of post-training in this paper. Consequently, we introduce an Iterative Preference Optimization strategy to enhance generated video quality by incorporating human feedback. Specifically, IPO exploits a critic model to justify video generations for pairwise ranking as in Direct Preference Optimization or point-wise scoring as in Kahneman-Tversky Optimization. Given this, IPO optimizes video foundation models with guidance of signals from preference feedback, which helps improve generated video quality in subject consistency, motion smoothness and aesthetic quality, etc. In addition, IPO incorporates the critic model with the multi-modality large language model, which enables it to automatically assign preference labels without need of retraining or relabeling. In this way, IPO can efficiently perform multi-round preference optimization in an iterative manner, without the need of tediously manual labeling. Comprehensive experiments demonstrate that the proposed IPO can effectively improve the video generation quality of a pretrained model and help a model with only 2B parameters surpass the one with 5B parameters. Besides, IPO achieves new state-of-the-art performance on VBench benchmark.

IPO: Iterative Preference Optimization for Text-to-Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理