MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
作者: Ziyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
分类: cs.CV, cs.AI
发布日期: 2024-10-23
备注: Project URL: https://github.com/Liuziyu77/MIA-DPO
💡 一句话要点
MIA-DPO:多图增强直接偏好优化,提升大视觉语言模型多图理解能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多图理解 视觉语言模型 直接偏好优化 数据增强 注意力机制
📋 核心要点
- 现有视觉对齐方法在处理多图任务时面临数据稀缺和标注成本高的挑战,限制了模型性能。
- MIA-DPO通过扩展单图数据生成多图数据,并利用注意力机制过滤错误响应,有效缓解了数据稀缺问题。
- 实验表明,MIA-DPO在多个多图基准测试中显著提升了LVLMs的性能,且对单图理解能力影响较小。
📝 摘要(中文)
本文提出多图增强直接偏好优化(MIA-DPO)方法,旨在提升大型视觉语言模型(LVLMs)在多图输入场景下的性能。现有视觉对齐方法主要针对单图场景,难以有效处理多图任务的复杂性,原因在于缺乏多样化的训练数据以及标注成本高昂。MIA-DPO通过将单图数据扩展为网格拼贴或画中画格式的多图数据,缓解了多图训练数据稀缺的问题,显著降低了标注成本。研究发现,LVLMs的注意力值在不同图像之间差异显著。MIA-DPO利用注意力值来识别和过滤模型可能错误关注的被拒绝响应,从而构建更有效的选择/拒绝对,无需人工标注、额外数据或外部模型/API。MIA-DPO兼容多种架构,并在五个多图基准测试中优于现有方法,在LLaVA-v1.5上平均提升3.0%,在最新的InternLM-XC2.5上平均提升4.3%。此外,MIA-DPO对模型理解单图的能力影响很小。
🔬 方法详解
问题定义:现有的大型视觉语言模型(LVLMs)在处理多图输入时,由于缺乏足够的多样性训练数据以及高昂的标注成本,导致模型难以有效学习图像间的关系,从而影响了在多图任务上的性能。现有的视觉对齐方法主要针对单图场景,无法直接应用于多图场景。
核心思路:MIA-DPO的核心思路是通过数据增强和注意力机制来解决多图训练数据稀缺的问题。通过将单张图像以网格拼贴或画中画的形式组合成多图,可以有效地扩展训练数据集,降低标注成本。同时,利用模型自身的注意力机制来识别和过滤掉模型可能错误关注的被拒绝响应,从而构建更有效的训练样本。
技术框架:MIA-DPO的整体框架主要包含以下几个阶段:1) 数据增强:将单张图像通过网格拼贴或画中画的方式生成多图数据。2) 模型推理:使用LVLM对多图输入进行推理,得到模型的响应。3) 注意力分析:分析模型在不同图像上的注意力值,识别模型可能错误关注的图像。4) 样本构建:基于注意力分析的结果,选择合适的响应作为chosen/rejected pair,用于DPO训练。5) 模型优化:使用DPO算法对LVLM进行优化,提升模型在多图任务上的性能。
关键创新:MIA-DPO的关键创新在于:1) 利用单图数据增强生成多图数据,有效缓解了多图训练数据稀缺的问题,降低了标注成本。2) 提出了一种基于注意力机制的样本选择方法,可以自动识别和过滤掉模型可能错误关注的被拒绝响应,从而构建更有效的训练样本。这种方法无需人工标注、额外数据或外部模型/API。
关键设计:在数据增强方面,论文采用了网格拼贴和画中画两种方式,可以有效地增加数据的多样性。在注意力分析方面,论文使用了模型最后一层的注意力值,并设置了一个阈值来判断模型是否错误关注了某个图像。在DPO训练方面,论文使用了标准的DPO损失函数,并对学习率等超参数进行了调整。
🖼️ 关键图片
📊 实验亮点
MIA-DPO在五个多图基准测试中取得了显著的性能提升。在LLaVA-v1.5上,平均性能提升了3.0%;在最新的InternLM-XC2.5上,平均性能提升了4.3%。实验结果表明,MIA-DPO可以有效地提升LVLMs在多图任务上的性能,并且对模型理解单图的能力影响很小。此外,MIA-DPO无需人工标注、额外数据或外部模型/API,具有很高的实用价值。
🎯 应用场景
MIA-DPO具有广泛的应用前景,例如在智能相册管理中,可以帮助模型理解多张照片之间的关系,从而更好地进行分类和组织。在医学影像分析中,可以帮助医生分析多张影像,从而更准确地诊断疾病。此外,该方法还可以应用于机器人导航、自动驾驶等领域,提升模型在复杂环境下的感知和决策能力。
📄 摘要(原文)
Visual preference alignment involves training Large Vision-Language Models (LVLMs) to predict human preferences between visual inputs. This is typically achieved by using labeled datasets of chosen/rejected pairs and employing optimization algorithms like direct preference optimization (DPO). Existing visual alignment methods, primarily designed for single-image scenarios, struggle to effectively handle the complexity of multi-image tasks due to the scarcity of diverse training data and the high cost of annotating chosen/rejected pairs. We present Multi-Image Augmented Direct Preference Optimization (MIA-DPO), a visual preference alignment approach that effectively handles multi-image inputs. MIA-DPO mitigates the scarcity of diverse multi-image training data by extending single-image data with unrelated images arranged in grid collages or pic-in-pic formats, significantly reducing the costs associated with multi-image data annotations. Our observation reveals that attention values of LVLMs vary considerably across different images. We use attention values to identify and filter out rejected responses the model may have mistakenly focused on. Our attention-aware selection for constructing the chosen/rejected pairs without relying on (i) human annotation, (ii) extra data, and (iii) external models or APIs. MIA-DPO is compatible with various architectures and outperforms existing methods on five multi-image benchmarks, achieving an average performance boost of 3.0% on LLaVA-v1.5 and 4.3% on the recent InternLM-XC2.5. Moreover, MIA-DPO has a minimal effect on the model's ability to understand single images.