PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection

作者: Yusu Qian, Cheng Wan, Chao Jia, Yinfei Yang, Qingyu Zhao, Zhe Gan

分类: cs.CV

发布日期: 2025-10-27 (更新: 2025-12-01)

备注: This paper's first error detection task's ground truth data contains hallucination introduced by gpt and needs to be withdrawn

💡 一句话要点

PRISM-Bench：一个基于谜题的可视化任务基准，具备CoT错误检测能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉推理 语言模型 错误检测 基准测试

📋 核心要点

现有MLLM在视觉-语言任务中推理过程的可靠性不足，缺乏细粒度的评估方法。
PRISM-Bench通过设计谜题和CoT错误检测，评估模型推理过程中的逻辑一致性和错误识别能力。
实验表明，现有MLLM在流畅生成CoT的同时，难以定位简单的逻辑错误，存在推理能力差距。

📝 摘要（中文）

多模态大型语言模型(MLLMs)在视觉-语言任务上取得了显著进展，但它们的推理过程有时仍然不可靠。我们引入了PRISM-Bench，这是一个基于谜题的可视化挑战基准，旨在评估模型不仅能否解决问题，还能评估它们的推理过程如何展开。与以往仅测量最终答案准确性的评估不同，PRISM-Bench引入了一个诊断任务：给定一个视觉谜题和一个包含恰好一个错误的逐步思维链(CoT)，模型必须识别第一个不正确的步骤。这种设置能够对逻辑一致性、错误检测和视觉推理进行细粒度的评估。PRISM-Bench中的谜题需要多步骤的符号、几何和类比推理，从而避免了基于表面模式匹配的捷径。对最先进的MLLM的评估揭示了流畅生成和忠实推理之间持续存在的差距：产生看似合理的CoT的模型通常无法定位简单的逻辑错误。通过将答案生成与推理验证分离，PRISM-Bench为多模态推理能力提供了一个更清晰的视角，并强调了在可信MLLM的开发中采用诊断评估协议的必要性。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型（MLLMs）在视觉推理任务中，推理过程不可靠且缺乏有效评估的问题。现有方法通常只关注最终答案的准确性，而忽略了模型内部的推理步骤，无法诊断模型推理过程中的错误和不足。这使得我们难以信任 MLLM 的推理结果，尤其是在需要高可靠性的应用场景中。

核心思路：论文的核心思路是通过构建一个基于谜题的视觉任务基准（PRISM-Bench），并引入链式思维（CoT）错误检测机制，来更全面、细致地评估 MLLM 的推理能力。通过要求模型不仅解决谜题，还要识别 CoT 中存在的错误步骤，从而将答案生成与推理验证分离，更准确地衡量模型的逻辑一致性和错误检测能力。

技术框架：PRISM-Bench 的整体框架包含以下几个关键组成部分：1) 谜题设计：设计了一系列需要多步骤推理的视觉谜题，涵盖符号、几何和类比推理等多种类型。2) CoT生成：为每个谜题生成一个包含正确推理步骤的 CoT，并人为地在其中插入一个错误步骤。3) 评估任务：要求 MLLM 解决谜题，并识别 CoT 中第一个错误步骤。4) 评估指标：除了最终答案的准确率外，还评估模型识别错误步骤的准确率，以及生成 CoT 的质量。

关键创新：PRISM-Bench 的关键创新在于引入了 CoT 错误检测任务，这使得可以对 MLLM 的推理过程进行更细粒度的评估。与以往只关注最终答案的评估方法相比，PRISM-Bench 能够诊断模型在推理过程中出现的错误，从而更好地理解模型的推理能力。此外，PRISM-Bench 的谜题设计也避免了模型通过简单的模式匹配来解决问题，而是需要进行真正的推理。

关键设计：PRISM-Bench 的关键设计包括：1) 谜题的多样性：设计了多种类型的谜题，以测试模型在不同推理场景下的能力。2) 错误步骤的插入：在 CoT 中插入的错误步骤是经过精心设计的，既要保证错误是逻辑上的，又要避免过于明显，以增加检测的难度。3) 评估指标的综合性：除了准确率外，还考虑了生成 CoT 的流畅性和合理性，以更全面地评估模型的推理能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最先进的MLLM，在PRISM-Bench上也表现出显著的推理能力差距。模型虽然能够生成看似合理的CoT，但往往无法准确识别其中的逻辑错误。这表明现有MLLM在流畅生成和忠实推理之间存在脱节，需要进一步改进。

🎯 应用场景

PRISM-Bench 可用于评估和改进多模态大型语言模型的推理能力，尤其是在需要高可靠性的应用领域，如医疗诊断、自动驾驶和金融分析等。通过诊断模型推理过程中的错误，可以提高模型的可信度，并为开发更安全、更可靠的人工智能系统提供指导。

📄 摘要（原文）

Multimodal large language models (MLLMs) have achieved remarkable progress on vision-language tasks, yet their reasoning processes remain sometimes unreliable. We introduce PRISM-Bench, a benchmark of puzzle-based visual challenges designed to evaluate not only whether models can solve problems, but how their reasoning unfolds. Unlike prior evaluations that measure only final-answer accuracy, PRISM-Bench introduces a diagnostic task: given a visual puzzle and a step-by-step chain-of-thought (CoT) containing exactly one error, models must identify the first incorrect step. This setting enables fine-grained assessment of logical consistency, error detection, and visual reasoning. The puzzles in PRISM-Bench require multi-step symbolic, geometric, and analogical reasoning, resisting shortcuts based on superficial pattern matching. Evaluations across state-of-the-art MLLMs reveal a persistent gap between fluent generation and faithful reasoning: models that produce plausible CoTs often fail to locate simple logical faults. By disentangling answer generation from reasoning verification, PRISM-Bench offers a sharper lens on multimodal reasoning competence and underscores the need for diagnostic evaluation protocols in the development of trustworthy MLLMs.

PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理