Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation

📄 arXiv: 2409.18541v2 📥 PDF

作者: Hongzhe Huang, Jiang Liu, Zhewen Yu, Li Cai, Dian Jiao, Wenqiao Zhang, Siliang Tang, Juncheng Li, Hao Jiang, Haoyuan Li, Yueting Zhuang

分类: cs.AI

发布日期: 2024-09-27 (更新: 2024-12-16)

DOI: 10.18653/v1/2025.findings-acl.458

🔗 代码/项目: GITHUB


💡 一句话要点

Align$^2$LLaVA:通过级联的人类与LLM偏好对齐,实现多模态指令数据的精细化筛选

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 指令微调 数据筛选 人类偏好对齐 LLM对齐

📋 核心要点

  1. 现有的多模态大语言模型依赖大量机器生成数据,但数据质量参差不齐,影响模型性能。
  2. 提出Align$^2$LLaVA,通过人类和LLM偏好对齐,筛选高质量指令数据,提升模型效率。
  3. 实验表明,使用压缩90%的数据训练的模型,在多个MLLM基准测试中优于使用全量数据的模型。

📝 摘要(中文)

多模态大型语言模型(MLLMs)的最新进展,如LLaVA系列模型,得益于大规模机器生成的指令跟随数据微调。然而,这种自动指令收集流程不可避免地引入了数据质量的显著差异。本文提出了一种新颖的指令筛选算法,从人类和LLM偏好对齐这两个独特的角度出发,将海量的机器生成多模态指令压缩成紧凑且高质量的形式:(i)对于人类偏好对齐,我们收集了一个机器生成的多模态指令数据集,并建立了一套全面的主观和客观标准,以指导人类专家对数据质量进行批判性评估。通过这样做,在标注数据集上训练了一个奖励模型,以将人类对指令对齐的细微理解内化。(ii)对于LLM偏好对齐,给定奖励模型选择的指令,我们建议利用MLLM中使用的内部LLM,使视觉指令的写作风格与内部LLM本身的风格对齐,从而改进LLM对齐的指令。大量的实验表明,我们可以通过压缩高达90%的合成多模态指令来维持甚至提高模型性能。令人印象深刻的是,通过将训练指令从158k大幅减少到14k(减少9倍),我们的模型在各种MLLM基准测试中始终优于其全尺寸数据集的对应模型。

🔬 方法详解

问题定义:当前的多模态大语言模型(MLLMs)依赖于大规模的机器生成指令数据进行训练,然而,这些自动生成的数据集往往包含大量低质量或与模型风格不一致的指令,导致模型训练效率低下,性能受限。现有方法难以有效区分和筛选这些指令,从而影响了MLLM的整体表现。

核心思路:Align$^2$LLaVA的核心思路是通过双重对齐策略,即人类偏好对齐和LLM偏好对齐,来筛选和优化指令数据。首先,利用人类专家的知识对数据进行评估和标注,训练一个奖励模型,学习人类对高质量指令的偏好。然后,利用MLLM内部的LLM,对指令的写作风格进行调整,使其与LLM自身的风格保持一致,从而提高指令的有效性。

技术框架:Align$^2$LLaVA包含两个主要阶段:人类偏好对齐和LLM偏好对齐。在人类偏好对齐阶段,首先收集机器生成的多模态指令数据集,然后由人类专家根据主观和客观标准对数据进行标注。利用标注数据训练奖励模型,该模型能够预测指令的质量。在LLM偏好对齐阶段,使用奖励模型选择的指令,并利用MLLM内部的LLM对指令进行润色和风格调整,使其更符合LLM的写作习惯。最终,使用筛选和优化后的指令数据训练MLLM。

关键创新:Align$^2$LLaVA的关键创新在于同时考虑了人类和LLM的偏好,通过级联的方式进行指令数据的筛选和优化。与仅依赖机器生成或人工标注的方法相比,Align$^2$LLaVA能够更有效地识别和去除低质量指令,并使指令的风格与MLLM的内部LLM保持一致,从而提高训练效率和模型性能。

关键设计:在人类偏好对齐阶段,设计了全面的主观和客观评估标准,用于指导人类专家进行数据标注。奖励模型采用常见的神经网络结构,例如Transformer或MLP,并使用标注数据进行训练。在LLM偏好对齐阶段,利用MLLM内部的LLM进行指令润色,可以通过prompt工程或微调的方式实现。具体的损失函数和网络结构等技术细节取决于具体的MLLM和数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用Align$^2$LLaVA筛选后的数据训练的模型,即使训练数据量减少90%(从158k到14k),在多个MLLM基准测试中仍然优于使用全量数据训练的模型。这证明了该方法在提高数据质量和模型性能方面的有效性。

🎯 应用场景

Align$^2$LLaVA可应用于各种多模态大语言模型的训练数据优化,提升模型在图像理解、视觉问答、多模态对话等任务上的性能。该方法能够有效降低数据标注成本,提高模型训练效率,并可推广到其他需要高质量训练数据的AI应用场景。

📄 摘要(原文)

Recent advances in Multi-modal Large Language Models (MLLMs), such as LLaVA-series models, are driven by massive machine-generated instruction-following data tuning. Such automatic instruction collection pipelines, however, inadvertently introduce significant variability in data quality. This paper introduces a novel instruction curation algorithm, derived from two unique perspectives, human and LLM preference alignment, to compress this vast corpus of machine-generated multimodal instructions to a compact and high-quality form: (i) For human preference alignment, we have collected a machine-generated multimodal instruction dataset and established a comprehensive set of both subjective and objective criteria to guide the data quality assessment critically from human experts. By doing so, a reward model was trained on the annotated dataset to internalize the nuanced human understanding of instruction alignment. (ii) For LLM preference alignment, given the instruction selected by the reward model, we propose leveraging the inner LLM used in MLLM to align the writing style of visual instructions with that of the inner LLM itself, resulting in LLM-aligned instruction improvement. Extensive experiments demonstrate that we can maintain or even improve model performance by compressing synthetic multimodal instructions by up to 90%. Impressively, by aggressively reducing the training instructions from 158k to 14k (9$\times$ smaller), our model consistently outperforms its full-size dataset counterpart across various MLLM benchmarks. Our project is available at https://github.com/DCDmllm/Align2LLaVA.