Explaining is Harder Than Predicting Alone: Evaluating Concept-based Explanations of MLLMs as ICL Visual Classifiers

作者: Carmen Quiles-Ramírez, Leticia L. Rodríguez, Nicolás Martorell, Natalia Díaz-Rodríguez

分类: cs.AI, cs.CL, cs.LG, cs.LO, cs.MA

发布日期: 2026-05-27

备注: Accepted to the CompLearn Workshop at ICML 2026

💡 一句话要点

评估MLLM作为ICL视觉分类器的概念解释能力，揭示解释比预测更难

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 上下文学习 可解释性 概念解释 视觉分类

📋 核心要点

现有MLLM在ICL中应用广泛，但其利用上下文进行推理的过程仍然不透明，缺乏可解释性。
论文提出一种基于概念的解释评估框架，通过不同严格程度的条件，系统评估MLLM的解释能力。
实验表明，强制模型生成形式化解释会降低预测精度，但高质量解释与正确预测之间存在强相关性。

📝 摘要（中文）

本文系统性地评估了冻结的多模态大型语言模型(MLLM)在少样本上下文学习(ICL)下的基于概念的解释能力。通过五个形式严谨程度递增的条件，从基线分类到描述逻辑(DL)公理生成，对四个最先进的MLLM进行了评估。使用独立的LLM作为评判管道，结果表明解释确实比单独预测更难。令人惊讶的是，强制模型生成形式化的、基于概念的解释会单调地降低预测准确性（从93.8%降至90.1%），这与显式推理普遍有助于性能的假设相矛盾。然而，当模型成功地表达了类区分的视觉特征时，解释质量与正确的预测密切相关。研究结果表明，虽然MLLM擅长视觉分类，但它们缺乏进行形式化的、机器可验证的解释所需的特定指令调优。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型(MLLM)在上下文学习(ICL)中，其预测过程缺乏可解释性的问题。现有方法，如Chain-of-Thought，可能无法真实反映模型的内部计算过程，因此需要更严格的方法来评估和理解MLLM的推理机制。

核心思路：论文的核心思路是通过评估MLLM生成基于概念的解释的能力，来衡量其可解释性。具体来说，论文设计了一系列任务，要求MLLM不仅进行视觉分类，还要生成对分类结果的解释，并评估这些解释的质量。通过比较预测准确率和解释质量，来判断模型是否真正理解了图像内容，并能够用人类可理解的方式表达出来。

技术框架：整体框架包含以下几个主要步骤：1) 使用少样本ICL设置，让MLLM进行视觉分类；2) 强制MLLM生成基于概念的解释，解释的形式从自由文本到描述逻辑公理不等，逐渐增加形式化程度；3) 使用独立的LLM作为评判器，评估MLLM生成的解释的质量；4) 分析预测准确率和解释质量之间的关系，从而评估MLLM的可解释性。

关键创新：论文最重要的创新点在于提出了一个系统性的、基于概念的解释评估框架，用于评估MLLM在ICL中的可解释性。该框架通过设计不同严格程度的解释任务，能够更全面地评估MLLM的推理能力。与现有方法相比，该框架更加关注解释的质量和形式化程度，能够更准确地反映模型的内部计算过程。

关键设计：论文的关键设计包括：1) 五种不同严格程度的解释任务，从基线分类到描述逻辑(DL)公理生成；2) 使用独立的LLM作为评判器，避免了主观偏差；3) 详细分析了预测准确率和解释质量之间的关系，揭示了MLLM在解释能力上的局限性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，强制MLLM生成形式化的、基于概念的解释会降低预测准确性（从93.8%降至90.1%），这与显式推理普遍有助于性能的假设相矛盾。然而，当模型成功地表达了类区分的视觉特征时，解释质量与正确的预测密切相关，说明高质量的解释能力与准确的预测结果存在关联。

🎯 应用场景

该研究成果可应用于提升多模态大语言模型的可信度和透明度，尤其是在医疗诊断、自动驾驶等安全攸关领域。通过提高模型的可解释性，可以帮助用户更好地理解模型的决策过程，从而建立信任并促进模型的广泛应用。未来的研究可以探索如何通过指令调优等方法，提高MLLM生成高质量解释的能力。

📄 摘要（原文）

In-context learning (ICL) enables multimodal large language models (MLLMs) to classify images from a few labelled examples. Yet, how these models use the provided context remains opaque. While Chain-of-Thought prompting is widely used, recent work argues that it may not reflect true internal computation. In this paper, we systematically evaluate the concept-based explainability of frozen MLLMs under few-shot ICL using five conditions of increasing formal rigour, ranging from baseline classification to Description Logics (DL) axiom generation. Evaluating four state-of-the-art MLLMs via an independent LLM-as-a-judge pipeline, we demonstrate that explaining is genuinely harder than predicting alone. Surprisingly, forcing models to generate formally structured, concept-based explanations degrades predictive accuracy monotonically (from 93.8% to 90.1%), contradicting the assumption that explicit reasoning universally aids performance. However, when models successfully articulate class-discriminative visual features, explanation quality strongly correlates with correct predictions. Our findings suggest that while MLLMs excel at visual classification, they lack the specific instruction-tuning required for formal, machine-verifiable explainability.

Explaining is Harder Than Predicting Alone: Evaluating Concept-based Explanations of MLLMs as ICL Visual Classifiers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理