Silkie: Preference Distillation for Large Visual Language Models
作者: Lei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen, Yazheng Yang, Benyou Wang, Lingpeng Kong
分类: cs.CV, cs.CL
发布日期: 2023-12-17
备注: Project page: https://vlf-silkie.github.io
💡 一句话要点
Silkie:面向大型视觉语言模型的偏好蒸馏,提升视觉上下文理解能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉语言模型 偏好蒸馏 AI标注 直接偏好优化 多模态学习
📋 核心要点
- 现有LVLM在生成响应时,难以保证与视觉上下文的高度相关性,且可能产生幻觉。
- 论文提出利用AI标注构建视觉-语言反馈数据集,并通过偏好蒸馏提升模型性能。
- 实验表明,Silkie在感知、认知能力和减少幻觉方面均取得了显著提升,达到SOTA水平。
📝 摘要(中文)
本文探索了大型视觉语言模型(LVLMs)的偏好蒸馏方法,旨在提高模型生成与视觉上下文相关的、有帮助且忠实的响应的能力。首先,我们利用AI标注构建了一个视觉-语言反馈(VLFeedback)数据集。具体来说,我们基于来自各种数据集的多模态指令,使用从12个LVLM中抽样的模型生成响应。然后,我们采用GPT-4V来评估生成的输出在有用性、视觉忠实性和伦理方面的表现。此外,通过直接偏好优化(DPO)方法,我们将偏好监督信息提炼到Qwen-VL-Chat中。由此产生的模型Silkie在MME基准测试中,感知和认知能力分别实现了6.9%和9.5%的相对提升。Silkie还通过在MMHal-Bench基准测试中获得3.02的新SOTA分数,展示了幻觉的减少。进一步的分析表明,使用我们的VLFeedback数据集进行DPO主要提升了LVLM的细粒度感知和复杂认知能力,从而带来了比人工标注偏好数据集更全面的改进。
🔬 方法详解
问题定义:现有的大型视觉语言模型(LVLMs)在理解视觉信息并生成相应的文本描述时,存在两个主要问题:一是生成的文本可能不够“helpful”,即不能很好地满足用户的需求;二是生成的文本可能不够“faithful”,即与视觉内容不一致,甚至产生幻觉。现有方法通常依赖人工标注的偏好数据,成本高昂且覆盖范围有限。
核心思路:本文的核心思路是利用AI标注自动生成大规模的视觉-语言反馈(VLFeedback)数据集,然后使用直接偏好优化(DPO)方法将这些偏好信息蒸馏到LVLM中。这种方法旨在使模型学习生成更符合人类偏好、更准确地反映视觉内容的文本描述。
技术框架:整体框架包含两个主要阶段:1) 数据集构建阶段:使用多个LVLM(12个)生成对多模态指令的响应,然后利用GPT-4V对这些响应进行评估,标注其helpfulness、visual faithfulness和ethical considerations。2) 模型训练阶段:使用DPO方法,以Qwen-VL-Chat为基础模型,利用VLFeedback数据集进行微调,得到最终模型Silkie。
关键创新:本文的关键创新在于利用AI标注自动生成大规模偏好数据集,避免了人工标注的高成本和局限性。此外,通过DPO方法,能够有效地将AI标注的偏好信息传递给LVLM,提升其性能。与传统的人工标注偏好数据集相比,VLFeedback数据集能够更全面地提升LVLM的细粒度感知和复杂认知能力。
关键设计:在数据集构建方面,使用了来自不同来源的多模态指令,以保证数据集的多样性。在模型训练方面,选择了DPO作为偏好学习方法,因为它相比于传统的强化学习方法更加稳定和高效。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。
📊 实验亮点
Silkie模型在MME基准测试中,感知和认知能力分别实现了6.9%和9.5%的相对提升。同时,在MMHal-Bench基准测试中获得了3.02的新SOTA分数,表明其幻觉问题得到了显著改善。这些结果表明,基于AI标注的偏好蒸馏方法能够有效地提升LVLM的性能。
🎯 应用场景
该研究成果可广泛应用于智能客服、图像描述、视觉问答等领域。通过提升LVLM的视觉理解和文本生成能力,可以实现更智能、更准确的人机交互,例如,在电商领域,可以根据商品图片自动生成详细描述,提升用户购物体验;在医疗领域,可以辅助医生进行医学影像诊断。
📄 摘要(原文)
This paper explores preference distillation for large vision language models (LVLMs), improving their ability to generate helpful and faithful responses anchoring the visual context. We first build a vision-language feedback (VLFeedback) dataset utilizing AI annotation. Specifically, responses are generated by models sampled from 12 LVLMs, conditioned on multi-modal instructions sourced from various datasets. We adopt GPT-4V to assess the generated outputs regarding helpfulness, visual faithfulness, and ethical considerations. Furthermore, the preference supervision is distilled into Qwen-VL-Chat through the direct preference optimization (DPO) method. The resulting model Silkie, achieves 6.9% and 9.5% relative improvement on the MME benchmark regarding the perception and cognition capabilities, respectively. Silkie also demonstrates reduced hallucination by setting a new state-of-the-art score of 3.02 on the MMHal-Bench benchmark. Further analysis shows that DPO with our VLFeedback dataset mainly boosts the fine-grained perception and complex cognition abilities of LVLMs, leading to more comprehensive improvements compared to human-annotated preference datasets.