PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection

作者: Yusu Qian, Cheng Wan, Chao Jia, Yinfei Yang, Qingyu Zhao, Zhe Gan

分类: cs.CV

发布日期: 2025-10-27 (更新: 2025-12-01)

备注: This paper's first error detection task's ground truth data contains hallucination introduced by gpt and needs to be withdrawn

💡 一句话要点

PRISM-Bench：一个基于谜题的可解释多模态推理评测基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉推理 推理诊断 错误检测 评测基准

📋 核心要点

现有MLLM在视觉推理中存在推理过程不可靠的问题，缺乏对推理过程的细粒度评估。
PRISM-Bench通过设计谜题和错误诊断任务，评估模型推理的逻辑一致性、错误检测和视觉推理能力。
实验表明，现有MLLM在流畅生成CoT的同时，难以定位推理过程中的逻辑错误，揭示了生成与验证之间的差距。

📝 摘要（中文）

多模态大型语言模型(MLLM)在视觉-语言任务上取得了显著进展，但其推理过程有时仍不可靠。我们推出了PRISM-Bench，这是一个基于谜题的视觉挑战基准，旨在评估模型是否能解决问题，以及它们的推理如何展开。与以往仅衡量最终答案准确性的评估不同，PRISM-Bench引入了一项诊断任务：给定一个视觉谜题和一个包含恰好一个错误的逐步思维链(CoT)，模型必须识别第一个不正确的步骤。这种设置能够对逻辑一致性、错误检测和视觉推理进行细粒度评估。PRISM-Bench中的谜题需要多步骤的符号、几何和类比推理，抵制基于表面模式匹配的捷径。对最先进的MLLM的评估揭示了流畅生成和忠实推理之间持续存在的差距：产生看似合理的CoT的模型常常无法定位简单的逻辑错误。通过将答案生成与推理验证分离，PRISM-Bench为多模态推理能力提供了一个更清晰的视角，并强调了在可信MLLM的开发中诊断评估协议的必要性。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型（MLLM）在视觉推理任务中推理过程不可靠的问题。现有方法主要关注最终答案的准确性，忽略了对模型推理过程的评估，导致模型可能通过表面模式匹配等捷径获得正确答案，而无法真正理解和解决问题。因此，需要一种能够评估模型推理过程的基准，以诊断模型的逻辑一致性、错误检测和视觉推理能力。

核心思路：论文的核心思路是通过设计基于谜题的视觉挑战，并引入错误诊断任务，来评估MLLM的推理过程。具体来说，给定一个视觉谜题和一个包含一个错误的逐步思维链（CoT），模型需要识别出第一个不正确的步骤。这种方法将答案生成与推理验证分离，从而能够更清晰地评估模型的推理能力。

技术框架：PRISM-Bench基准包含一系列基于谜题的视觉挑战，每个挑战都包含一个视觉谜题和一个逐步思维链（CoT）。CoT中包含一个错误步骤。模型的任务是识别CoT中的第一个错误步骤。整个评估流程包括：1）向模型展示视觉谜题和CoT；2）模型分析CoT，并尝试识别错误步骤；3）评估模型识别错误步骤的准确性。

关键创新：PRISM-Bench的关键创新在于引入了错误诊断任务，能够对MLLM的推理过程进行细粒度评估。与以往仅关注最终答案准确性的评估方法不同，PRISM-Bench能够评估模型的逻辑一致性、错误检测和视觉推理能力。此外，PRISM-Bench中的谜题设计需要多步骤的符号、几何和类比推理，能够有效抵制基于表面模式匹配的捷径。

关键设计：PRISM-Bench中的谜题涵盖多种类型，包括符号推理、几何推理和类比推理。CoT的生成方式保证每个CoT中恰好包含一个错误步骤，并且错误步骤的位置是随机的。评估指标主要包括错误诊断的准确率，即模型正确识别错误步骤的比例。没有涉及具体的网络结构或损失函数的设计，重点在于基准数据集和评估方式的设计。

📊 实验亮点

实验结果表明，现有的最先进MLLM在PRISM-Bench上表现出显著的差距，即模型可以生成看似合理的CoT，但却难以定位CoT中的简单逻辑错误。这表明现有模型在流畅生成和忠实推理之间存在脱节。例如，一些模型在错误诊断任务上的准确率远低于其在传统视觉-语言任务上的准确率，突出了诊断评估协议的必要性。

🎯 应用场景

PRISM-Bench可用于评估和改进多模态大型语言模型的推理能力，尤其是在需要可信赖推理的场景中，例如医疗诊断、自动驾驶和金融分析。通过诊断模型推理过程中的错误，可以帮助研究人员开发更鲁棒、更可靠的MLLM，从而提高这些模型在实际应用中的安全性和有效性。此外，该基准还可以促进对人类认知和推理过程的理解。

📄 摘要（原文）

Multimodal large language models (MLLMs) have achieved remarkable progress on vision-language tasks, yet their reasoning processes remain sometimes unreliable. We introduce PRISM-Bench, a benchmark of puzzle-based visual challenges designed to evaluate not only whether models can solve problems, but how their reasoning unfolds. Unlike prior evaluations that measure only final-answer accuracy, PRISM-Bench introduces a diagnostic task: given a visual puzzle and a step-by-step chain-of-thought (CoT) containing exactly one error, models must identify the first incorrect step. This setting enables fine-grained assessment of logical consistency, error detection, and visual reasoning. The puzzles in PRISM-Bench require multi-step symbolic, geometric, and analogical reasoning, resisting shortcuts based on superficial pattern matching. Evaluations across state-of-the-art MLLMs reveal a persistent gap between fluent generation and faithful reasoning: models that produce plausible CoTs often fail to locate simple logical faults. By disentangling answer generation from reasoning verification, PRISM-Bench offers a sharper lens on multimodal reasoning competence and underscores the need for diagnostic evaluation protocols in the development of trustworthy MLLMs.

PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册