Low-hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training
作者: Xinsong Zhang, Yarong Zeng, Xinting Huang, Hu Hu, Runquan Xie, Han Hu, Zhanhui Kang
分类: cs.CV, cs.AI
发布日期: 2025-04-17 (更新: 2025-05-17)
💡 一句话要点
提出低幻觉合成字幕生成方法,用于大规模视觉-语言模型预训练。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 预训练 合成字幕 低幻觉 直接偏好优化
📋 核心要点
- 现有视觉-语言模型预训练依赖高质量图像-文本对,但高质量数据日益稀缺,限制了模型性能的进一步提升。
- 提出一种生成低幻觉、知识丰富的合成字幕的新流程,利用连续DPO方法显著降低字幕幻觉率。
- 实验表明,使用该方法生成的合成字幕进行预训练,在多个视觉-语言任务上均优于使用真实数据(alt-text)。
📝 摘要(中文)
近年来,视觉-语言模型预训练领域发展迅速,主要得益于大型语言模型文本能力的不断增强。然而,现有的多模态大型语言模型训练范式严重依赖高质量的图像-文本对。随着模型和数据规模呈指数级增长,这种精心策划的数据变得越来越稀缺和饱和,严重限制了该领域的进一步发展。本研究探讨了用于视觉-语言模型预训练的可扩展字幕生成技术,并证明大规模低幻觉合成字幕可以发挥双重作用:1) 作为预训练范式中真实世界数据的可行替代方案;2) 通过实证验证,在集成到视觉-语言模型中时实现卓越的性能提升。本文提出了以下主要贡献:1) 一种用于生成高质量、低幻觉和知识丰富的合成字幕的新颖流程。我们的连续DPO方法在减少幻觉方面取得了显著成果。具体而言,对于7B大小的模型,在保留的测试集上,非幻觉字幕率从48.3%提高到77.9%。2) 全面的实证验证表明,我们的合成字幕比同类字幕具有优越的预训练优势。在15个视觉语言任务中,使用我们的数据训练的模型与使用相同图像和alt-text的模型相比,性能至少提高了6.2%。在20个常见的认知领域中,使用我们的数据训练的模型比alt-text数据至少高出7.5%。同时,它也为文本到图像领域提供了相当大的支持。使用我们的数据集,在真实世界的验证基准上,FID分数降低了17.1,在MSCOCO验证基准上降低了13.3。
🔬 方法详解
问题定义:现有视觉-语言模型预训练严重依赖人工标注的高质量图像-文本对,但随着模型规模的增大,高质量数据的获取成本越来越高,且数据量存在饱和瓶颈。现有方法难以生成既准确又包含丰富知识的合成字幕,容易出现幻觉问题,影响预训练效果。
核心思路:论文的核心思路是设计一个能够生成低幻觉、知识丰富的合成字幕的流程,从而替代或补充真实数据,用于视觉-语言模型的预训练。通过降低合成字幕的幻觉率,提高预训练数据的质量,进而提升模型的性能。
技术框架:该方法的核心是一个生成高质量合成字幕的pipeline,主要包含以下几个阶段:1) 使用大型语言模型(LLM)生成初始字幕;2) 使用连续DPO(Direct Preference Optimization)方法对LLM进行微调,以降低字幕的幻觉率;3) 利用生成的低幻觉字幕进行视觉-语言模型的预训练。
关键创新:该方法最重要的技术创新点在于使用连续DPO方法来降低合成字幕的幻觉率。传统的DPO方法需要人工标注的偏好数据,而连续DPO方法则可以通过自动化的方式生成偏好数据,从而降低了标注成本。此外,该方法还注重生成知识丰富的字幕,从而提升预训练数据的质量。
关键设计:在连续DPO方法中,关键的设计包括:1) 如何定义奖励函数,以衡量字幕的幻觉率和知识丰富度;2) 如何生成用于DPO训练的偏好数据;3) 如何选择合适的LLM作为生成字幕的基础模型。论文中使用了特定的奖励函数和偏好数据生成策略,并选择了合适的LLM模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用该方法生成的合成字幕进行预训练,在15个视觉语言任务中,模型性能至少提升了6.2%,在20个认知领域中,性能至少提升了7.5%。在文本到图像生成任务中,FID分数在真实世界验证集上降低了17.1,在MSCOCO验证集上降低了13.3%。这些结果表明,该方法能够有效提升视觉-语言模型的性能。
🎯 应用场景
该研究成果可广泛应用于视觉-语言模型的预训练,尤其是在高质量数据稀缺的场景下。通过生成低幻觉的合成字幕,可以有效提升模型的性能,并降低数据标注成本。该技术还可应用于图像描述生成、视觉问答等任务,具有重要的实际应用价值和广阔的未来发展前景。
📄 摘要(原文)
In recent years, the field of vision-language model pre-training has experienced rapid advancements, driven primarily by the continuous enhancement of textual capabilities in large language models. However, existing training paradigms for multimodal large language models heavily rely on high-quality image-text pairs. As models and data scales grow exponentially, the availability of such meticulously curated data has become increasingly scarce and saturated, thereby severely limiting further advancements in this domain. This study investigates scalable caption generation techniques for vision-language model pre-training and demonstrates that large-scale low-hallucination synthetic captions can serve dual purposes: 1) acting as a viable alternative to real-world data for pre-training paradigms and 2) achieving superior performance enhancement when integrated into vision-language models through empirical validation. This paper presents following key contributions: 1) a novel pipeline for generating high-quality, low-hallucination, and knowledge-rich synthetic captions. Our continuous DPO methodology yields remarkable results in reducing hallucinations. Specifically, the non-hallucination caption rate on a held-out test set increases from 48.3% to 77.9% for a 7B-size model. 2) Comprehensive empirical validation reveals that our synthetic captions confer superior pre-training advantages over their counterparts. Across 15 vision language tasks, the model trained with our data achieves a significant performance gain of at least 6.2% compared to identical images with alt-text. In 20 common cognitive domains, the model trained with our data outperforms the alt-text data by at least 7.5%. Meanwhile, it also offers considerable support in the text-to-image domain. With our dataset, the FID score is reduced by 17.1 on a real-world validation benchmark and 13.3 on the MSCOCO validation benchmark.