CARV: A Diagnostic Benchmark for Compositional Analogical Reasoning in Multimodal LLMs

📄 arXiv: 2603.27958v1 📥 PDF

作者: Yongkang Du, Xiaohan Zou, Minhao Cheng, Lu Lin

分类: cs.AI

发布日期: 2026-03-30


💡 一句话要点

CARV:多模态LLM中组合类比推理的诊断基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 类比推理 组合推理 视觉推理 大型语言模型 诊断基准 人工智能

📋 核心要点

  1. 现有MLLM在类比推理评估中,忽略了组合来自多个来源规则的能力,这限制了其高阶智能。
  2. CARV任务通过扩展类比到多个对象对,要求MLLM提取符号规则并组合新的转换,以诊断组合类比推理能力。
  3. 实验表明,即使是Gemini-2.5 Pro在CARV上的准确率也仅为40.4%,远低于人类水平,揭示了MLLM的局限性。

📝 摘要(中文)

类比推理是人类认知的一个基本方面,即将一个对象对的关系映射到另一个对象对。现有的多模态大型语言模型(MLLM)对这种能力的评估忽略了从多个来源组合规则的能力,而这对于更高阶的智能至关重要。为了弥补这一差距,我们引入了CARV(视觉中的组合类比推理),这是一个新颖的任务,并提供了一个包含5500个样本的数据集,作为第一个诊断基准。我们将类比从单个对象对扩展到多个对象对,这要求MLLM从每个对象对中提取符号规则并组合新的转换。对最先进的MLLM的评估显示了一个惊人的性能差距:即使是Gemini-2.5 Pro也只达到了40.4%的准确率,远低于人类100%的水平。诊断分析显示了两种一致的失败模式:(1)将视觉变化分解为符号规则,以及(2)在多样化或复杂的设置下保持鲁棒性,突出了当前MLLM在此任务上的局限性。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在组合类比推理方面的不足。现有的MLLM评估方法主要关注单个对象对之间的类比,忽略了从多个来源组合规则的能力,这对于实现更高阶的智能至关重要。因此,如何有效地评估和提升MLLM在组合类比推理方面的能力是一个亟待解决的问题。

核心思路:论文的核心思路是通过构建一个新颖的诊断基准CARV,来评估MLLM在组合类比推理方面的能力。CARV任务将类比从单个对象对扩展到多个对象对,要求MLLM从每个对象对中提取符号规则,并将这些规则组合起来以进行新的转换。这种设计能够更全面地评估MLLM在理解和应用复杂规则方面的能力。

技术框架:CARV任务的数据集包含5500个样本,每个样本由多个对象对组成。MLLM需要分析这些对象对之间的关系,提取出相应的符号规则,并将这些规则组合起来以预测新的转换结果。整个流程可以分为以下几个阶段:(1)视觉信息提取:利用视觉模型提取图像中的特征;(2)关系推理:分析对象对之间的关系,提取符号规则;(3)规则组合:将提取的规则进行组合,生成新的转换规则;(4)结果预测:根据组合后的规则,预测新的转换结果。

关键创新:论文的关键创新在于提出了CARV任务,这是一个专门用于评估MLLM在组合类比推理方面能力的诊断基准。与现有的类比推理评估方法相比,CARV任务更加注重对规则组合能力的考察,能够更全面地评估MLLM的智能水平。此外,CARV数据集的构建也具有一定的创新性,它包含了大量的复杂场景,能够有效地挑战MLLM的推理能力。

关键设计:CARV数据集的设计考虑了多样性和复杂性。数据集中的图像包含了各种不同的对象和场景,对象之间的关系也多种多样。为了增加任务的难度,数据集还引入了一些干扰因素,例如光照变化、遮挡等。在评估MLLM的性能时,论文采用了准确率作为评价指标。此外,论文还对MLLM的失败模式进行了诊断分析,以了解MLLM在哪些方面存在不足。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是目前最先进的MLLM模型Gemini-2.5 Pro在CARV数据集上的准确率仅为40.4%,远低于人类的100%。诊断分析揭示了MLLM在分解视觉变化为符号规则以及在复杂环境下保持鲁棒性方面的不足。这些结果突显了现有MLLM在组合类比推理方面的局限性,为未来的研究方向提供了重要的参考。

🎯 应用场景

该研究成果可应用于提升多模态大型语言模型在复杂场景下的推理能力,例如在机器人导航、智能设计、视觉问答等领域。通过提高模型对组合规则的理解和应用能力,可以使其更好地适应真实世界的复杂环境,并做出更准确的决策。未来,该研究或将推动通用人工智能的发展。

📄 摘要(原文)

Analogical reasoning tests a fundamental aspect of human cognition: mapping the relation from one pair of objects to another. Existing evaluations of this ability in multimodal large language models (MLLMs) overlook the ability to compose rules from multiple sources, a critical component of higher-order intelligence. To close this gap, we introduce CARV (Compositional Analogical Reasoning in Vision), a novel task together with a 5,500-sample dataset as the first diagnostic benchmark. We extend the analogy from a single pair to multiple pairs, which requires MLLMs to extract symbolic rules from each pair and compose new transformations. Evaluation on the state-of-the-art MLLMs reveals a striking performance gap: even Gemini-2.5 Pro achieving only 40.4% accuracy, far below human-level performance of 100%. Diagnostic analysis shows two consistent failure modes: (1) decomposing visual changes into symbolic rules, and (2) maintaining robustness under diverse or complex settings, highlighting the limitations of current MLLMs on this task.