Have Large Vision-Language Models Mastered Art History?

作者: Ombretta Strafforello, Derya Soydaner, Michiel Willems, Anne-Sofie Maerten, Stefanie De Winter

分类: cs.CV

发布日期: 2024-09-05 (更新: 2025-09-10)

💡 一句话要点

评估大型视觉-语言模型在艺术史领域的掌握程度

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 艺术史 图像分类 零样本学习 艺术品分析

📋 核心要点

艺术品图像分类因其复杂性和风格多样性，对现有图像分类方法提出了挑战，需要更高级的上下文理解。
本文通过评估大型视觉-语言模型在艺术风格、作者和创作日期分类任务上的表现，探索其在艺术史领域的推理能力。
研究分析了CLIP、LLaVA和GPT-4o等模型在艺术品图像基准上的零样本分类性能，并与人类专家知识进行了对比。

📝 摘要（中文）

大型视觉-语言模型（VLMs）的出现为多个领域的图像分类建立了新的基线。本文探讨了它们的模态推理能力是否能够应对人类专家所掌握的挑战。具体而言，我们测试了VLMs是否能够对绘画的风格、作者和创作日期进行分类，这是一个传统上由艺术史学家掌握的领域。与自然图像相比，艺术品由于其固有的复杂性和多样性结构（以可变的构图和风格为特征）而构成了独特的挑战。这需要情境和风格的解释，而不是直接的对象识别。艺术史学家长期以来一直在研究艺术品的独特方面，风格预测是他们学科的关键组成部分。本文研究了集成视觉和文本数据的大型VLMs是否能够有效地推理绘画的历史和风格属性。我们首次进行了此类研究，对三个VLMs（即CLIP、LLaVA和GPT-4o）进行了深入分析，评估了它们对艺术风格、作者和时间段的零样本分类能力。通过使用两个艺术品图像基准，我们评估了模型解释风格的能力，评估了它们对提示的敏感性，并检查了失败案例。此外，我们通过分析错误分类来关注这些模型与人类艺术史专业知识的比较，从而深入了解它们的推理和分类模式。

🔬 方法详解

问题定义：论文旨在评估大型视觉-语言模型（VLMs）在艺术史领域的理解和推理能力，具体任务是艺术品的风格、作者和创作日期的分类。现有方法在处理艺术品图像时，由于其复杂性和风格多样性，往往难以达到人类专家的水平，需要更高级的上下文理解和推理能力。

核心思路：论文的核心思路是利用大型VLMs的强大视觉和语言理解能力，通过零样本分类的方式，直接评估模型在艺术史领域的知识掌握程度。通过分析模型的分类结果和错误案例，深入了解模型在艺术风格、作者和时间段等方面的推理模式。

技术框架：该研究的技术框架主要包括以下几个部分：1) 选择三个具有代表性的VLMs：CLIP、LLaVA和GPT-4o；2) 使用两个艺术品图像基准数据集进行评估；3) 设计零样本分类任务，包括艺术风格、作者和创作日期的分类；4) 分析模型的分类结果，包括准确率、混淆矩阵等；5) 对模型的错误分类案例进行深入分析，探讨模型在艺术史领域的理解偏差。

关键创新：该研究的关键创新在于首次系统性地评估了大型VLMs在艺术史领域的知识掌握程度，并将其与人类专家的知识进行了对比。通过分析模型的错误分类案例，揭示了模型在艺术风格、作者和时间段等方面的理解偏差，为未来改进VLMs在艺术史领域的应用提供了重要参考。

关键设计：研究的关键设计包括：1) 选择具有代表性的VLMs，涵盖了不同架构和训练方式的模型；2) 使用两个艺术品图像基准数据集，保证了评估的全面性和客观性；3) 设计零样本分类任务，避免了模型对特定数据集的过拟合；4) 对模型的错误分类案例进行深入分析，揭示了模型在艺术史领域的理解偏差。

🖼️ 关键图片

📊 实验亮点

研究结果表明，VLMs在艺术风格分类任务上表现出一定的能力，但与人类专家相比仍有差距。例如，GPT-4o在某些风格分类任务上取得了较好的结果，但对提示的敏感性较高。对错误分类案例的分析表明，VLMs在理解艺术品的上下文和风格细微差别方面存在不足，需要进一步改进。

🎯 应用场景

该研究的潜在应用领域包括：艺术品鉴定、艺术教育、博物馆导览、艺术品推荐等。通过提升VLMs在艺术史领域的理解能力，可以开发出更智能的艺术品分析和推荐系统，为艺术爱好者和研究者提供更便捷的服务。未来，该研究还可以扩展到其他文化遗产领域，例如建筑、雕塑等。

📄 摘要（原文）

The emergence of large Vision-Language Models (VLMs) has established new baselines in image classification across multiple domains. We examine whether their multimodal reasoning can also address a challenge mastered by human experts. Specifically, we test whether VLMs can classify the style, author and creation date of paintings, a domain traditionally mastered by art historians. Artworks pose a unique challenge compared to natural images due to their inherently complex and diverse structures, characterized by variable compositions and styles. This requires a contextual and stylistic interpretation rather than straightforward object recognition. Art historians have long studied the unique aspects of artworks, with style prediction being a crucial component of their discipline. This paper investigates whether large VLMs, which integrate visual and textual data, can effectively reason about the historical and stylistic attributes of paintings. We present the first study of its kind, conducting an in-depth analysis of three VLMs, namely CLIP, LLaVA, and GPT-4o, evaluating their zero-shot classification of art style, author and time period. Using two image benchmarks of artworks, we assess the models' ability to interpret style, evaluate their sensitivity to prompts, and examine failure cases. Additionally, we focus on how these models compare to human art historical expertise by analyzing misclassifications, providing insights into their reasoning and classification patterns.

Have Large Vision-Language Models Mastered Art History?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理