Silkie: Preference Distillation for Large Visual Language Models

作者: Lei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen, Yazheng Yang, Benyou Wang, Lingpeng Kong

分类: cs.CV, cs.CL

发布日期: 2023-12-17

备注: Project page: https://vlf-silkie.github.io

💡 一句话要点

Silkie：面向大型视觉语言模型的偏好蒸馏，提升视觉上下文理解能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视觉语言模型 偏好蒸馏 AI标注 直接偏好优化 多模态学习

📋 核心要点

现有LVLM在生成响应时，难以保证与视觉上下文的高度相关性，且可能产生幻觉。
论文提出利用AI标注构建视觉-语言反馈数据集，并通过偏好蒸馏提升模型性能。
实验表明，Silkie在感知、认知能力和减少幻觉方面均取得了显著提升，达到SOTA水平。

📝 摘要（中文）

本文探索了大型视觉语言模型（LVLMs）的偏好蒸馏方法，旨在提高模型生成与视觉上下文相关的、有帮助且忠实的响应的能力。首先，我们利用AI标注构建了一个视觉-语言反馈（VLFeedback）数据集。具体来说，我们基于来自各种数据集的多模态指令，使用从12个LVLM中抽样的模型生成响应。然后，我们采用GPT-4V来评估生成的输出在有用性、视觉忠实性和伦理方面的表现。此外，通过直接偏好优化（DPO）方法，我们将偏好监督信息提炼到Qwen-VL-Chat中。由此产生的模型Silkie在MME基准测试中，感知和认知能力分别实现了6.9%和9.5%的相对提升。Silkie还通过在MMHal-Bench基准测试中获得3.02的新SOTA分数，展示了幻觉的减少。进一步的分析表明，使用我们的VLFeedback数据集进行DPO主要提升了LVLM的细粒度感知和复杂认知能力，从而带来了比人工标注偏好数据集更全面的改进。

🔬 方法详解

问题定义：现有的大型视觉语言模型（LVLMs）在理解视觉信息并生成相应的文本描述时，存在两个主要问题：一是生成的文本可能不够“helpful”，即不能很好地满足用户的需求；二是生成的文本可能不够“faithful”，即与视觉内容不一致，甚至产生幻觉。现有方法通常依赖人工标注的偏好数据，成本高昂且覆盖范围有限。

核心思路：本文的核心思路是利用AI标注自动生成大规模的视觉-语言反馈（VLFeedback）数据集，然后使用直接偏好优化（DPO）方法将这些偏好信息蒸馏到LVLM中。这种方法旨在使模型学习生成更符合人类偏好、更准确地反映视觉内容的文本描述。

技术框架：整体框架包含两个主要阶段：1) 数据集构建阶段：使用多个LVLM（12个）生成对多模态指令的响应，然后利用GPT-4V对这些响应进行评估，标注其helpfulness、visual faithfulness和ethical considerations。2) 模型训练阶段：使用DPO方法，以Qwen-VL-Chat为基础模型，利用VLFeedback数据集进行微调，得到最终模型Silkie。

关键创新：本文的关键创新在于利用AI标注自动生成大规模偏好数据集，避免了人工标注的高成本和局限性。此外，通过DPO方法，能够有效地将AI标注的偏好信息传递给LVLM，提升其性能。与传统的人工标注偏好数据集相比，VLFeedback数据集能够更全面地提升LVLM的细粒度感知和复杂认知能力。

关键设计：在数据集构建方面，使用了来自不同来源的多模态指令，以保证数据集的多样性。在模型训练方面，选择了DPO作为偏好学习方法，因为它相比于传统的强化学习方法更加稳定和高效。具体参数设置和网络结构细节未在摘要中详细说明，属于未知信息。

📊 实验亮点

Silkie模型在MME基准测试中，感知和认知能力分别实现了6.9%和9.5%的相对提升。同时，在MMHal-Bench基准测试中获得了3.02的新SOTA分数，表明其幻觉问题得到了显著改善。这些结果表明，基于AI标注的偏好蒸馏方法能够有效地提升LVLM的性能。

🎯 应用场景

该研究成果可广泛应用于智能客服、图像描述、视觉问答等领域。通过提升LVLM的视觉理解和文本生成能力，可以实现更智能、更准确的人机交互，例如，在电商领域，可以根据商品图片自动生成详细描述，提升用户购物体验；在医疗领域，可以辅助医生进行医学影像诊断。

📄 摘要（原文）

This paper explores preference distillation for large vision language models (LVLMs), improving their ability to generate helpful and faithful responses anchoring the visual context. We first build a vision-language feedback (VLFeedback) dataset utilizing AI annotation. Specifically, responses are generated by models sampled from 12 LVLMs, conditioned on multi-modal instructions sourced from various datasets. We adopt GPT-4V to assess the generated outputs regarding helpfulness, visual faithfulness, and ethical considerations. Furthermore, the preference supervision is distilled into Qwen-VL-Chat through the direct preference optimization (DPO) method. The resulting model Silkie, achieves 6.9% and 9.5% relative improvement on the MME benchmark regarding the perception and cognition capabilities, respectively. Silkie also demonstrates reduced hallucination by setting a new state-of-the-art score of 3.02 on the MMHal-Bench benchmark. Further analysis shows that DPO with our VLFeedback dataset mainly boosts the fine-grained perception and complex cognition abilities of LVLMs, leading to more comprehensive improvements compared to human-annotated preference datasets.

Silkie: Preference Distillation for Large Visual Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册