OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

📄 arXiv: 2502.18411v2 📥 PDF

作者: Xiangyu Zhao, Shengyuan Ding, Zicheng Zhang, Haian Huang, Maosong Cao, Weiyun Wang, Jiaqi Wang, Xinyu Fang, Wenhai Wang, Guangtao Zhai, Haodong Duan, Hua Yang, Kai Chen

分类: cs.CV

发布日期: 2025-02-25 (更新: 2025-03-01)

🔗 代码/项目: GITHUB


💡 一句话要点

OmniAlign-V:增强多模态大语言模型与人类偏好对齐的数据集与评测基准

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 人类偏好对齐 监督微调 直接偏好优化 数据集构建 基准评测 价值观对齐

📋 核心要点

  1. 现有开源多模态大语言模型主要关注基础能力提升,在与人类偏好对齐方面存在显著差距。
  2. OmniAlign-V通过构建高质量、多样化的数据集,并结合监督微调或直接偏好优化,提升模型与人类偏好的对齐。
  3. 实验表明,使用OmniAlign-V微调MLLMs,显著提升了人类偏好对齐,同时保持或提升了VQA基准上的性能。

📝 摘要(中文)

本文提出了OmniAlign-V,一个包含20万高质量训练样本的综合数据集,旨在提升多模态大语言模型(MLLMs)与人类偏好的对齐。该数据集包含多样化的图像、复杂的问题和各种响应格式。此外,本文还提出了MM-AlignBench,一个人工标注的基准,专门用于评估MLLMs与人类价值观的对齐程度。实验结果表明,使用OmniAlign-V对MLLMs进行微调,无论是使用监督微调(SFT)还是直接偏好优化(DPO),都能显著增强人类偏好对齐,同时保持或提升在标准VQA基准上的性能,从而保留其基本能力。数据集、基准、代码和检查点已开源。

🔬 方法详解

问题定义:当前开源的多模态大语言模型(MLLMs)在基础能力上取得了显著进展,但与人类偏好的对齐仍然不足。这意味着模型生成的答案可能不符合人类的价值观、道德标准或实际需求,从而限制了其在实际应用中的可靠性和可用性。现有方法缺乏足够的高质量数据和有效的评估基准来解决这个问题。

核心思路:本文的核心思路是通过构建一个大规模、高质量、多样化的数据集OmniAlign-V,并结合监督微调(SFT)或直接偏好优化(DPO)等技术,来提升MLLMs与人类偏好的对齐程度。通过大量的数据训练,模型可以学习到更符合人类价值观的响应模式。

技术框架:整体框架包含两个主要部分:数据集构建和模型微调。数据集构建阶段,作者收集并标注了20万高质量的训练样本,涵盖了多样化的图像、复杂的问题和各种响应格式。模型微调阶段,作者使用OmniAlign-V数据集,分别采用SFT和DPO两种方法对MLLMs进行微调。此外,还使用MM-AlignBench基准来评估模型与人类价值观的对齐程度。

关键创新:本文的关键创新在于构建了OmniAlign-V数据集和MM-AlignBench基准。OmniAlign-V数据集的规模和质量都优于现有的数据集,并且包含了更广泛的图像和问题类型,以及更丰富的响应格式。MM-AlignBench基准则专门用于评估MLLMs与人类价值观的对齐程度,弥补了现有评估方法的不足。与现有方法相比,本文更注重模型与人类偏好的对齐,而不仅仅是基础能力。

关键设计:在数据集构建方面,作者精心设计了数据收集和标注流程,确保数据的质量和多样性。在模型微调方面,作者尝试了SFT和DPO两种方法,并对超参数进行了优化。在评估方面,作者设计了MM-AlignBench基准,并采用人工标注的方式来评估模型与人类价值观的对齐程度。具体的损失函数和网络结构细节未在摘要中详细说明,需要参考论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用OmniAlign-V对MLLMs进行微调,无论是使用监督微调(SFT)还是直接偏好优化(DPO),都能显著增强人类偏好对齐,同时保持或提升在标准VQA基准上的性能。具体的性能提升数据需要在论文全文中查找,摘要中未提供详细的数值对比。

🎯 应用场景

该研究成果可广泛应用于智能客服、教育辅助、医疗诊断等领域。通过提升多模态大语言模型与人类偏好的对齐,可以使其生成更符合人类价值观、更可靠的答案,从而提高用户满意度和信任度。未来,该研究还可以促进人机协作的进一步发展,使人工智能更好地服务于人类社会。

📄 摘要(原文)

Recent advancements in open-source multi-modal large language models (MLLMs) have primarily focused on enhancing foundational capabilities, leaving a significant gap in human preference alignment. This paper introduces OmniAlign-V, a comprehensive dataset of 200K high-quality training samples featuring diverse images, complex questions, and varied response formats to improve MLLMs' alignment with human preferences. We also present MM-AlignBench, a human-annotated benchmark specifically designed to evaluate MLLMs' alignment with human values. Experimental results show that finetuning MLLMs with OmniAlign-V, using Supervised Fine-Tuning (SFT) or Direct Preference Optimization (DPO), significantly enhances human preference alignment while maintaining or enhancing performance on standard VQA benchmarks, preserving their fundamental capabilities. Our datasets, benchmark, code and checkpoints have been released at https://github.com/PhoenixZ810/OmniAlign-V.