Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training
作者: Yangyi Chen, Hao Peng, Tong Zhang, Heng Ji
分类: cs.CV, cs.CL, cs.LG
发布日期: 2025-05-13
备注: The code will be available at https://github.com/Yangyi-Chen/PRIOR
💡 一句话要点
PRIOR:通过图像相关Token优先级排序增强视觉-语言预训练
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言预训练 图像相关性 Token优先级 重要性抽样 大型语言模型
📋 核心要点
- 现有LVLMs预训练方法中,直接使用NTP易受噪声干扰,导致模型产生幻觉,影响性能。
- PRIOR通过引入纯文本LLM作为参考模型,对图像相关Token赋予更高权重,从而优化NTP损失。
- 实验表明,PRIOR在多种视觉-语言任务上取得了显著提升,并具有更好的可扩展性。
📝 摘要(中文)
在标准的大型视觉-语言模型(LVLMs)预训练中,模型通常通过下一个Token预测(NTP)来最大化以图像为条件的文本描述的联合概率。然而,由于只有一小部分文本描述Token直接与视觉内容相关,这种朴素的NTP无意中使模型适应噪声并增加了幻觉的风险。我们提出PRIOR,一种简单的视觉-语言预训练方法,通过在NTP损失中对图像相关Token进行差异加权来解决这个问题,借鉴了重要性抽样框架。PRIOR引入了一个参考模型——一个仅在没有图像输入的文本描述上训练的纯文本大型语言模型(LLM),以根据其概率对LVLMs训练的每个Token进行加权。直观地说,与视觉输入直接相关的Token在没有图像的情况下更难预测,因此从纯文本参考LLM获得较低的概率。在训练期间,我们基于重要性分数实现了一个Token特定的重新加权项,以调整每个Token的损失。我们在两种不同的设置中实现了PRIOR:带有视觉编码器的LVLMs和没有视觉编码器的LVLMs。与NTP相比,我们在几个视觉-语言基准测试中分别观察到19%和8%的平均相对改进。此外,PRIOR表现出卓越的缩放特性,如显著更高的缩放系数所示,表明与NTP相比,在计算和数据增加的情况下,具有更大的性能提升潜力。
🔬 方法详解
问题定义:现有的大型视觉-语言模型(LVLMs)在预训练阶段,通常采用下一个Token预测(NTP)方法,即模型根据图像和已生成的文本预测下一个Token。然而,并非所有文本Token都与图像内容直接相关,许多Token可能只是描述性的或上下文信息。这种情况下,模型容易受到噪声Token的干扰,导致模型学习到与图像无关的信息,从而产生幻觉,降低模型性能。
核心思路:PRIOR的核心思路是通过区分图像相关Token和非图像相关Token,并对前者赋予更高的权重,从而优化NTP损失。具体来说,PRIOR认为,与图像内容直接相关的Token,在没有图像信息的情况下,更难被预测。因此,可以通过一个纯文本的LLM来评估每个Token在没有图像信息下的预测概率,概率越低,说明该Token与图像相关性越高,应该赋予更高的权重。
技术框架:PRIOR的整体框架包括一个待训练的LVLM和一个纯文本LLM参考模型。LVLM接收图像和文本输入,并预测下一个Token。纯文本LLM只接收文本输入,并预测下一个Token。在训练过程中,首先使用纯文本LLM计算每个Token的预测概率,然后根据该概率计算每个Token的权重,最后使用加权的NTP损失来训练LVLM。
关键创新:PRIOR最重要的创新点在于引入了纯文本LLM作为参考模型,用于评估Token与图像的相关性,并根据相关性调整NTP损失。这种方法能够有效地减少噪声Token的干扰,使模型更加关注与图像内容相关的Token,从而提高模型性能。与传统的NTP方法相比,PRIOR能够更好地利用图像信息,减少幻觉的产生。
关键设计:PRIOR的关键设计在于Token权重的计算方式。论文使用纯文本LLM预测的Token概率的倒数作为权重,即权重与概率成反比。此外,论文还引入了一个温度参数来控制权重的平滑程度。损失函数采用加权的交叉熵损失,其中每个Token的损失都乘以对应的权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PRIOR在多个视觉-语言基准测试中取得了显著的提升。例如,在COCO Caption数据集上,PRIOR相比于NTP方法,取得了19%的相对提升。此外,PRIOR还表现出更好的可扩展性,随着计算资源和数据的增加,性能提升更加明显。这表明PRIOR具有很大的潜力,可以应用于更大规模的视觉-语言模型。
🎯 应用场景
PRIOR方法可以应用于各种视觉-语言任务,例如图像描述生成、视觉问答、图像检索等。通过提高模型对图像相关Token的关注度,可以生成更准确、更相关的文本描述,提高视觉问答的准确率,并改善图像检索的效果。该方法在智能客服、自动驾驶、医疗影像分析等领域具有潜在的应用价值。
📄 摘要(原文)
In standard large vision-language models (LVLMs) pre-training, the model typically maximizes the joint probability of the caption conditioned on the image via next-token prediction (NTP); however, since only a small subset of caption tokens directly relates to the visual content, this naive NTP unintentionally fits the model to noise and increases the risk of hallucination. We present PRIOR, a simple vision-language pre-training approach that addresses this issue by prioritizing image-related tokens through differential weighting in the NTP loss, drawing from the importance sampling framework. PRIOR introduces a reference model-a text-only large language model (LLM) trained on the captions without image inputs, to weight each token based on its probability for LVLMs training. Intuitively, tokens that are directly related to the visual inputs are harder to predict without the image and thus receive lower probabilities from the text-only reference LLM. During training, we implement a token-specific re-weighting term based on the importance scores to adjust each token's loss. We implement PRIOR in two distinct settings: LVLMs with visual encoders and LVLMs without visual encoders. We observe 19% and 8% average relative improvement, respectively, on several vision-language benchmarks compared to NTP. In addition, PRIOR exhibits superior scaling properties, as demonstrated by significantly higher scaling coefficients, indicating greater potential for performance gains compared to NTP given increasing compute and data.