TLDR: Token-Level Detective Reward Model for Large Vision Language Models
作者: Deqing Fu, Tong Xiao, Rui Wang, Wang Zhu, Pengchuan Zhang, Guan Pang, Robin Jia, Lawrence Chen
分类: cs.LG, cs.CL, cs.CV
发布日期: 2024-10-07 (更新: 2025-02-24)
备注: Published as a conference paper at ICLR 2025
💡 一句话要点
提出TLDR:一种Token级别判别奖励模型,提升大型视觉语言模型性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 奖励模型 token级别 细粒度标注 幻觉检测
📋 核心要点
- 现有奖励模型仅提供粗粒度反馈,忽略了文本内部token的重要性,可能导致视觉语言模型对文本产生偏见。
- TLDR模型通过token级别的细粒度标注,为每个token提供反馈,从而更准确地评估和指导模型的生成。
- 实验表明,TLDR模型能有效辅助模型自我纠正,提升性能,并加速人工标注过程,提高数据质量。
📝 摘要(中文)
尽管奖励模型在改进多模态大型语言模型方面取得了成功,但现有的奖励模型本身仍然过于粗糙,包含的信息量有限。特别是,现有的奖励模型仅仅通过为任何文本分配一个二元反馈来模仿人类的标注,而不管文本的长度如何。在需要模型处理图像和文本的多模态语言模型领域,一个简单的奖励模型可能会学习到对文本的隐式偏见,从而降低图像的 grounding 效果。在本文中,我们提出了一种 Token 级别的判别奖励模型 (TLDR),为每个文本 token 提供细粒度的标注。我们首先引入了一种基于扰动的方法来生成合成的困难负样本及其 token 级别的标签,以训练 TLDR 模型。然后,我们展示了 TLDR 模型在辅助现有模型自我纠正生成结果以及作为幻觉评估工具方面的丰富用途。我们表明,TLDR 自动训练 token 级别的似然优化,并且可以显著提高基础模型的性能。最后,我们表明 TLDR 模型可以显著加快人类标注的速度,提高 3 倍,从而获得更广泛的高质量视觉语言数据。
🔬 方法详解
问题定义:现有奖励模型为整个文本序列分配单一奖励值,忽略了文本内部不同token的重要性差异。这导致模型难以区分生成文本中哪些部分是好的,哪些部分是坏的,尤其是在多模态场景下,容易对文本产生偏见,降低图像 grounding 效果。
核心思路:TLDR的核心思路是提供token级别的细粒度奖励信号,让模型能够学习到每个token对整体生成质量的贡献。通过这种方式,模型可以更准确地识别和纠正生成中的错误,并更好地理解图像内容。
技术框架:TLDR的训练主要包含两个阶段:1) 使用基于扰动的方法生成合成的困难负样本,并为每个token标注相应的标签。具体来说,通过对原始文本进行微小的修改(例如替换、删除或插入token)来创建负样本,并根据修改的位置来确定哪些token是“坏”的。2) 使用这些合成数据来训练TLDR模型,使其能够预测每个token的奖励值。训练完成后,TLDR模型可以用于评估现有模型的生成结果,并提供token级别的反馈。
关键创新:TLDR最重要的创新在于其token级别的奖励机制。与传统的奖励模型相比,TLDR能够提供更细粒度的信息,从而更有效地指导模型的学习。此外,TLDR还提出了一种基于扰动的合成数据生成方法,可以自动创建高质量的训练数据,避免了人工标注的成本。
关键设计:TLDR模型的具体结构未知,但可以推测其输入是图像和文本序列,输出是每个token的奖励值。损失函数的设计目标是使模型能够准确预测token级别的奖励,例如可以使用交叉熵损失或均方误差损失。扰动方法的具体实现方式未知,但需要保证生成的负样本具有一定的难度,并且能够反映token级别的错误。
🖼️ 关键图片
📊 实验亮点
论文表明,TLDR模型能够自动训练token级别的似然优化,并显著提高基础模型的性能。此外,TLDR模型可以将人工标注速度提高3倍,从而获得更广泛的高质量视觉语言数据。具体的性能提升数据未知。
🎯 应用场景
TLDR模型可应用于提升各种视觉语言模型的性能,例如图像描述生成、视觉问答等。它还可以作为一种评估工具,用于检测模型生成的幻觉内容。此外,TLDR模型可以加速数据标注过程,降低人工成本,从而促进视觉语言领域的发展。
📄 摘要(原文)
Although reward models have been successful in improving multimodal large language models, the reward models themselves remain brutal and contain minimal information. Notably, existing reward models only mimic human annotations by assigning only one binary feedback to any text, no matter how long the text is. In the realm of multimodal language models, where models are required to process both images and texts, a naive reward model may learn implicit biases toward texts and become less grounded in images. In this paper, we propose a $\textbf{T}$oken-$\textbf{L}$evel $\textbf{D}$etective $\textbf{R}$eward Model ($\textbf{TLDR}$) to provide fine-grained annotations to each text token. We first introduce a perturbation-based method to generate synthetic hard negatives and their token-level labels to train TLDR models. Then we show the rich usefulness of TLDR models both in assisting off-the-shelf models to self-correct their generations, and in serving as a hallucination evaluation tool. We show that TLDR automatically trains a token-level likelihood optimization, and can improve the base model's performance significantly. Finally, we show that TLDR models can significantly speed up human annotation by 3 times to acquire a broader range of high-quality vision language data.