Explaining is Harder Than Predicting Alone: Evaluating Concept-based Explanations of MLLMs as ICL Visual Classifiers

📄 arXiv: 2605.28215v1 📥 PDF

作者: Carmen Quiles-Ramírez, Leticia L. Rodríguez, Nicolás Martorell, Natalia Díaz-Rodríguez

分类: cs.AI, cs.CL, cs.LG, cs.LO, cs.MA

发布日期: 2026-05-27

备注: Accepted to the CompLearn Workshop at ICML 2026


💡 一句话要点

评估MLLM作为ICL视觉分类器的概念解释能力,揭示解释比预测更难

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 上下文学习 可解释性 概念解释 视觉分类

📋 核心要点

  1. 现有MLLM在ICL中应用广泛,但其利用上下文进行推理的过程仍然不透明,缺乏可解释性。
  2. 论文提出一种基于概念的解释评估框架,通过不同严格程度的条件,系统评估MLLM的解释能力。
  3. 实验表明,强制模型生成形式化解释会降低预测精度,但高质量解释与正确预测之间存在强相关性。

📝 摘要(中文)

本文系统性地评估了冻结的多模态大型语言模型(MLLM)在少样本上下文学习(ICL)下的基于概念的解释能力。通过五个形式严谨程度递增的条件,从基线分类到描述逻辑(DL)公理生成,对四个最先进的MLLM进行了评估。使用独立的LLM作为评判管道,结果表明解释确实比单独预测更难。令人惊讶的是,强制模型生成形式化的、基于概念的解释会单调地降低预测准确性(从93.8%降至90.1%),这与显式推理普遍有助于性能的假设相矛盾。然而,当模型成功地表达了类区分的视觉特征时,解释质量与正确的预测密切相关。研究结果表明,虽然MLLM擅长视觉分类,但它们缺乏进行形式化的、机器可验证的解释所需的特定指令调优。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在上下文学习(ICL)中,其预测过程缺乏可解释性的问题。现有方法,如Chain-of-Thought,可能无法真实反映模型的内部计算过程,因此需要更严格的方法来评估和理解MLLM的推理机制。

核心思路:论文的核心思路是通过评估MLLM生成基于概念的解释的能力,来衡量其可解释性。具体来说,论文设计了一系列任务,要求MLLM不仅进行视觉分类,还要生成对分类结果的解释,并评估这些解释的质量。通过比较预测准确率和解释质量,来判断模型是否真正理解了图像内容,并能够用人类可理解的方式表达出来。

技术框架:整体框架包含以下几个主要步骤:1) 使用少样本ICL设置,让MLLM进行视觉分类;2) 强制MLLM生成基于概念的解释,解释的形式从自由文本到描述逻辑公理不等,逐渐增加形式化程度;3) 使用独立的LLM作为评判器,评估MLLM生成的解释的质量;4) 分析预测准确率和解释质量之间的关系,从而评估MLLM的可解释性。

关键创新:论文最重要的创新点在于提出了一个系统性的、基于概念的解释评估框架,用于评估MLLM在ICL中的可解释性。该框架通过设计不同严格程度的解释任务,能够更全面地评估MLLM的推理能力。与现有方法相比,该框架更加关注解释的质量和形式化程度,能够更准确地反映模型的内部计算过程。

关键设计:论文的关键设计包括:1) 五种不同严格程度的解释任务,从基线分类到描述逻辑(DL)公理生成;2) 使用独立的LLM作为评判器,避免了主观偏差;3) 详细分析了预测准确率和解释质量之间的关系,揭示了MLLM在解释能力上的局限性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,强制MLLM生成形式化的、基于概念的解释会降低预测准确性(从93.8%降至90.1%),这与显式推理普遍有助于性能的假设相矛盾。然而,当模型成功地表达了类区分的视觉特征时,解释质量与正确的预测密切相关,说明高质量的解释能力与准确的预测结果存在关联。

🎯 应用场景

该研究成果可应用于提升多模态大语言模型的可信度和透明度,尤其是在医疗诊断、自动驾驶等安全攸关领域。通过提高模型的可解释性,可以帮助用户更好地理解模型的决策过程,从而建立信任并促进模型的广泛应用。未来的研究可以探索如何通过指令调优等方法,提高MLLM生成高质量解释的能力。

📄 摘要(原文)

In-context learning (ICL) enables multimodal large language models (MLLMs) to classify images from a few labelled examples. Yet, how these models use the provided context remains opaque. While Chain-of-Thought prompting is widely used, recent work argues that it may not reflect true internal computation. In this paper, we systematically evaluate the concept-based explainability of frozen MLLMs under few-shot ICL using five conditions of increasing formal rigour, ranging from baseline classification to Description Logics (DL) axiom generation. Evaluating four state-of-the-art MLLMs via an independent LLM-as-a-judge pipeline, we demonstrate that explaining is genuinely harder than predicting alone. Surprisingly, forcing models to generate formally structured, concept-based explanations degrades predictive accuracy monotonically (from 93.8% to 90.1%), contradicting the assumption that explicit reasoning universally aids performance. However, when models successfully articulate class-discriminative visual features, explanation quality strongly correlates with correct predictions. Our findings suggest that while MLLMs excel at visual classification, they lack the specific instruction-tuning required for formal, machine-verifiable explainability.