LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models
作者: Shangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-02-20
🔗 代码/项目: GITHUB
💡 一句话要点
LongWriter-V:通过长文本SFT数据集和迭代DPO,实现视觉语言模型中的超长且高保真生成。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉语言模型 长文本生成 监督微调 直接偏好优化 迭代DPO
📋 核心要点
- 现有视觉语言模型在长文本生成方面存在局限性,主要原因是缺乏足够长的输出样本进行监督微调。
- LongWriter-V通过构建包含大量长文本输出样本的SFT数据集,并结合迭代DPO优化,提升模型长文本生成能力。
- 实验结果表明,提出的7B参数模型在长文本生成基准测试中表现出色,甚至超越了更大的专有模型GPT-4o。
📝 摘要(中文)
现有的大型视觉语言模型(LVLMs)可以处理高达128k视觉和文本token的上下文长度的输入,但它们难以生成超过1000个单词的连贯输出。我们发现,主要的限制是监督微调(SFT)期间缺乏长输出的例子。为了解决这个问题,我们引入了LongWriter-V-22k,这是一个包含22158个例子的SFT数据集,每个例子都有多个输入图像、一个指令和相应的0到10000个单词的输出。此外,为了实现保持对输入图像高保真度的长输出,我们对SFT模型采用直接偏好优化(DPO)。鉴于为冗长的输出(例如,3000个单词)收集人工反馈的高成本,我们提出了IterDPO,它将长输出分成多个片段,并使用迭代校正来形成与原始输出的偏好对。此外,我们开发了MMLongBench-Write,这是一个包含六个任务的基准,用于评估VLMs的长生成能力。我们使用LongWriter-V-22k和IterDPO训练的7B参数模型在这个基准上取得了令人印象深刻的性能,优于像GPT-4o这样更大的专有模型。
🔬 方法详解
问题定义:现有的大型视觉语言模型虽然能够处理较长的上下文输入,但在生成长文本输出时,连贯性和保真度会显著下降。主要原因是缺乏足够多的长文本输出样本进行监督微调,导致模型无法有效学习长文本的生成模式。
核心思路:LongWriter-V的核心思路是通过构建大规模的长文本数据集LongWriter-V-22k,并结合直接偏好优化(DPO)和迭代DPO(IterDPO)方法,来提升视觉语言模型生成长文本的能力。通过SFT数据集提供长文本生成范例,DPO和IterDPO则用于优化生成文本的质量和与输入图像的对齐程度。
技术框架:LongWriter-V的训练框架主要包含以下几个阶段:1) 构建LongWriter-V-22k数据集,包含多个输入图像、指令和对应的长文本输出。2) 使用LongWriter-V-22k数据集对视觉语言模型进行监督微调(SFT)。3) 使用DPO或IterDPO方法对SFT模型进行优化,提升生成文本的质量和与输入图像的对齐程度。MMLongBench-Write基准用于评估模型的长文本生成能力。
关键创新:该论文的关键创新点在于:1) 构建了大规模的长文本SFT数据集LongWriter-V-22k,为视觉语言模型提供了丰富的长文本生成范例。2) 提出了IterDPO方法,通过将长文本分割成片段并进行迭代校正,降低了长文本人工反馈的成本。3) 构建了MMLongBench-Write基准,用于评估视觉语言模型在长文本生成方面的性能。
关键设计:LongWriter-V-22k数据集包含22158个样本,每个样本包含多个输入图像、指令和对应的0到10000个单词的输出。IterDPO方法将长文本输出分割成多个片段,并使用迭代校正来形成与原始输出的偏好对,从而降低了长文本人工反馈的成本。MMLongBench-Write基准包含六个任务,用于评估视觉语言模型在长文本生成方面的性能。
📊 实验亮点
LongWriter-V在MMLongBench-Write基准测试中取得了显著的性能提升,超越了多个基线模型,包括更大的专有模型GPT-4o。实验结果表明,使用LongWriter-V-22k数据集和IterDPO方法训练的7B参数模型,在长文本生成任务中表现出色,证明了该方法的有效性。
🎯 应用场景
LongWriter-V在多个领域具有广泛的应用前景,例如:自动生成小说、剧本、产品描述、新闻报道等长文本内容。该研究可以提升视觉语言模型在内容创作方面的能力,降低人工成本,并为用户提供更加智能化的内容生成服务。此外,该研究还可以应用于教育、娱乐、广告等领域,具有重要的实际价值和未来影响。
📄 摘要(原文)
Existing Large Vision-Language Models (LVLMs) can process inputs with context lengths up to 128k visual and text tokens, yet they struggle to generate coherent outputs beyond 1,000 words. We find that the primary limitation is the absence of long output examples during supervised fine-tuning (SFT). To tackle this issue, we introduce LongWriter-V-22k, a SFT dataset comprising 22,158 examples, each with multiple input images, an instruction, and corresponding outputs ranging from 0 to 10,000 words. Moreover, to achieve long outputs that maintain high-fidelity to the input images, we employ Direct Preference Optimization (DPO) to the SFT model. Given the high cost of collecting human feedback for lengthy outputs (e.g., 3,000 words), we propose IterDPO, which breaks long outputs into segments and uses iterative corrections to form preference pairs with the original outputs. Additionally, we develop MMLongBench-Write, a benchmark featuring six tasks to evaluate the long-generation capabilities of VLMs. Our 7B parameter model, trained with LongWriter-V-22k and IterDPO, achieves impressive performance on this benchmark, outperforming larger proprietary models like GPT-4o. Code and data: https://github.com/THU-KEG/LongWriter-V