A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges

📄 arXiv: 2501.02189v6 📥 PDF

作者: Zongxia Li, Xiyang Wu, Hongyang Du, Fuxiao Liu, Huy Nghiem, Guangyao Shi

分类: cs.CV, cs.AI, cs.CL, cs.LG, cs.RO

发布日期: 2025-01-04 (更新: 2025-04-06)

备注: 22 pages, 3 figures

期刊: Navigating the Future: Ensuring Trustworthiness in Multi-Modal Open-World Intelligence @ CVPR, 2025

🔗 代码/项目: GITHUB


💡 一句话要点

对大型视觉语言模型(VLM)的对齐、基准、评估和挑战进行全面综述

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 多模态学习 模型对齐 基准测试 模型评估 幻觉问题 公平性 安全性

📋 核心要点

  1. 现有视觉语言模型(VLM)在幻觉、对齐、公平性和安全性等方面存在挑战,限制了其可靠性和广泛应用。
  2. 本文对截至2025年的主流VLM模型信息、架构演变、对齐方法、基准测试和评估指标进行了系统性综述。
  3. 该综述总结并分类了VLM的常用基准和评估指标,并探讨了VLM当前面临的挑战和问题。

📝 摘要(中文)

多模态视觉语言模型(VLM)已成为计算机视觉和自然语言处理交叉领域中一个变革性的主题,使机器能够通过视觉和文本模态来感知和推理世界。例如,CLIP、Claude 和 GPT-4V 等模型在视觉和文本数据上表现出强大的推理和理解能力,并在零样本分类中击败了经典的单模态视觉模型。鉴于 VLM 在研究方面的快速进步以及在各种应用中日益普及,我们对 VLM 进行了全面的综述。具体来说,我们从以下几个方面对 VLM 进行了系统的概述:[1] 截至 2025 年开发的主要 VLM 的模型信息;[2] VLM 架构的演变和最新的 VLM 对齐方法;[3] VLM 的流行基准和评估指标的总结和分类;[4] 当前 VLM 面临的挑战和问题,如幻觉、对齐、公平性和安全性。详细的论文和模型仓库链接列表可在 https://github.com/zli12321/Vision-Language-Models-Overview 中找到。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)虽然在很多任务上表现出色,但仍然面临诸多挑战。例如,VLM可能会产生幻觉,即生成与输入不一致或不真实的内容。此外,VLM的对齐问题,即如何使视觉和语言模态更好地协同工作,也是一个重要的研究方向。公平性和安全性问题也日益受到关注,需要确保VLM不会产生偏见或被用于恶意目的。

核心思路:本文的核心思路是对现有VLM进行全面的梳理和总结,从模型信息、架构演变、对齐方法、基准测试和评估指标等多个方面进行分析。通过对这些方面的深入研究,可以更好地了解VLM的发展现状和未来趋势,为解决VLM面临的挑战提供参考。

技术框架:本文的综述框架主要包括以下几个部分:首先,介绍主流VLM的模型信息,包括模型的大小、训练数据、性能指标等。其次,分析VLM的架构演变,从早期的双塔结构到现在的多模态融合结构。然后,重点介绍VLM的对齐方法,包括对比学习、交叉注意力机制等。接着,总结和分类VLM的常用基准测试和评估指标。最后,探讨VLM面临的挑战和问题,并展望未来的发展方向。

关键创新:本文的创新之处在于对VLM进行了系统而全面的综述,涵盖了VLM的各个方面。与以往的综述相比,本文更加关注VLM的最新进展,并对VLM面临的挑战和问题进行了深入的分析。此外,本文还提供了一个详细的论文和模型仓库链接列表,方便读者进一步研究。

关键设计:本文没有提出新的模型或算法,而是在现有研究的基础上进行总结和分析。在模型信息方面,本文收集了截至2025年的主流VLM的模型信息,包括模型的参数量、训练数据、性能指标等。在架构演变方面,本文分析了VLM从双塔结构到多模态融合结构的演变过程。在对齐方法方面,本文介绍了对比学习、交叉注意力机制等常用的对齐方法。在基准测试和评估指标方面,本文总结和分类了VLM的常用基准测试和评估指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该综述全面梳理了截至2025年的主流VLM,并总结了VLM在对齐方法、基准测试和评估指标等方面的最新进展。该综述还深入探讨了VLM面临的幻觉、对齐、公平性和安全性等挑战,为未来的研究方向提供了有价值的参考。

🎯 应用场景

该研究成果可应用于智能客服、图像描述、视觉问答、机器人导航等领域。通过解决VLM的幻觉、对齐、公平性和安全性等问题,可以提高VLM的可靠性和实用性,从而更好地服务于社会。

📄 摘要(原文)

Multimodal Vision Language Models (VLMs) have emerged as a transformative topic at the intersection of computer vision and natural language processing, enabling machines to perceive and reason about the world through both visual and textual modalities. For example, models such as CLIP, Claude, and GPT-4V demonstrate strong reasoning and understanding abilities on visual and textual data and beat classical single modality vision models on zero-shot classification [93]. With their rapid advancements in research and growing popularity in various applications, we provide a comprehensive survey of VLMs. Specifically, we provide a systematic overview of VLMs in the following aspects: [1] model information of the major VLMs developed up to 2025; [2] the transition of VLM architectures and the newest VLM alignment methods; [3] summary and categorization of the popular benchmarks and evaluation metrics of VLMs; [4] the challenges and issues faced by current VLMs such as hallucination, alignment, fairness, and safety. Detailed collections including papers and model repository links are listed in https://github.com/zli12321/Vision-Language-Models-Overview.