Dual-IPO: Dual-Iterative Preference Optimization for Text-to-Video Generation
作者: Xiaomeng Yang, Mengping Yang, Jia Gong, Luozheng Qin, Zhiyu Tan, Hao Li
分类: cs.CV, cs.AI
发布日期: 2026-02-28
💡 一句话要点
提出Dual-IPO双迭代优化框架,提升文本到视频生成质量并对齐用户偏好。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到视频生成 迭代优化 奖励模型 偏好对齐 扩散模型
📋 核心要点
- 现有文本到视频生成模型难以满足用户真实需求和偏好,生成质量有待提高。
- Dual-IPO框架通过迭代优化奖励模型和视频生成模型,实现质量提升和偏好对齐。
- 实验表明,Dual-IPO能有效提升视频生成质量,甚至使小模型超越大模型。
📝 摘要(中文)
本文提出了一种双迭代优化(Dual-IPO)框架,用于提升文本到视频生成模型的性能,使其更好地对齐用户的真实需求和偏好。该框架迭代地优化奖励模型和视频生成模型,从而提高合成质量和人类偏好对齐。对于奖励模型,通过CoT引导的推理、基于投票的自洽性和偏好确定性估计,确保可靠和鲁棒的奖励信号。然后,利用奖励模型的反馈来优化视频生成模型,从而提高主题一致性、运动平滑性和美学质量等方面的合成质量。奖励模型和视频生成模型相互补充,并在多轮迭代中逐步改进,无需繁琐的手动偏好标注。实验结果表明,Dual-IPO能够有效且持续地提高各种架构和大小的基础模型的视频生成质量,甚至可以帮助一个只有2B参数的模型超越一个5B参数的模型。分析实验和消融研究验证了系统设计的合理性和每个组件的有效性。
🔬 方法详解
问题定义:文本到视频生成任务旨在根据给定的文本描述生成相应的视频。现有方法通常难以生成与用户真实偏好对齐的高质量视频,在主题一致性、运动平滑性和美学质量等方面存在不足。此外,获取用户偏好标注成本高昂,限制了模型的优化。
核心思路:Dual-IPO的核心思路是通过迭代优化奖励模型和视频生成模型,使两者相互促进,逐步提升视频生成质量并对齐用户偏好。奖励模型用于评估生成视频的质量和与文本描述的匹配程度,视频生成模型则根据奖励模型的反馈进行优化。这种迭代优化的方式无需手动标注偏好数据,降低了训练成本。
技术框架:Dual-IPO框架包含两个主要模块:奖励模型和视频生成模型。首先,使用CoT(Chain-of-Thought)引导的推理、基于投票的自洽性和偏好确定性估计来训练一个鲁棒的奖励模型。然后,利用奖励模型的反馈信号来优化视频生成模型,提升其生成视频的质量。这两个模型在多轮迭代中交替优化,直至达到预期的性能。
关键创新:Dual-IPO的关键创新在于其双迭代优化范式,它将奖励模型和视频生成模型的优化过程解耦,并通过迭代的方式将两者联系起来。这种方法能够更有效地利用奖励模型的反馈信息,提升视频生成模型的性能。此外,CoT引导的推理和基于投票的自洽性增强了奖励模型的鲁棒性。
关键设计:奖励模型的设计中,CoT引导的推理用于提高奖励模型判断的准确性,基于投票的自洽性用于增强奖励模型的鲁棒性。视频生成模型的优化则采用强化学习或策略梯度等方法,根据奖励模型的反馈调整生成策略。具体的损失函数和网络结构选择取决于所使用的基础模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Dual-IPO能够有效提升视频生成质量,在主题一致性、运动平滑性和美学质量等方面均有显著提升。更重要的是,Dual-IPO能够帮助一个只有2B参数的模型超越一个5B参数的模型,表明其具有很高的效率和潜力。消融实验验证了CoT引导推理和基于投票的自洽性等关键组件的有效性。
🎯 应用场景
Dual-IPO可应用于各种文本到视频生成场景,例如电影制作、广告设计、游戏开发等。它可以帮助用户更轻松地创作出符合其需求的个性化视频内容,提高创作效率和视频质量。该研究的未来影响在于推动文本到视频生成技术的发展,使其更加智能化和用户友好。
📄 摘要(原文)
Recent advances in video generation have enabled thrilling experiences in producing realistic videos driven by scalable diffusion transformers. However, they usually fail to produce satisfactory outputs that are aligned to users' authentic demands and preferences. In this work, we introduce Dual-Iterative Optimization (Dual-IPO), an iterative paradigm that sequentially optimizes both the reward model and the video generation model for improved synthesis quality and human preference alignment. For the reward model, our framework ensures reliable and robust reward signals via CoT-guided reasoning, voting-based self-consistency, and preference certainty estimation. Given this, we optimize video foundation models with guidance of signals from reward model's feedback, thus improving the synthesis quality in subject consistency, motion smoothness and aesthetic quality, etc. The reward model and video generation model complement each other and are progressively improved in the multi-round iteration, without requiring tediously manual preference annotations. Comprehensive experiments demonstrate that the proposed Dual-IPO can effectively and consistently improve the video generation quality of base model with various architectures and sizes, even help a model with only 2B parameters surpass a 5B one. Moreover, our analysis experiments and ablation studies identify the rational of our systematic design and the efficacy of each component.