PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection
作者: Yusu Qian, Cheng Wan, Chao Jia, Yinfei Yang, Qingyu Zhao, Zhe Gan
分类: cs.CV
发布日期: 2025-10-27 (更新: 2025-12-01)
备注: This paper's first error detection task's ground truth data contains hallucination introduced by gpt and needs to be withdrawn
💡 一句话要点
PRISM-Bench:一个基于谜题的可视化任务基准,具备CoT错误检测能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉推理 语言模型 错误检测 基准测试
📋 核心要点
- 现有MLLM在视觉-语言任务中推理过程的可靠性不足,缺乏细粒度的评估方法。
- PRISM-Bench通过设计谜题和CoT错误检测,评估模型推理过程中的逻辑一致性和错误识别能力。
- 实验表明,现有MLLM在流畅生成CoT的同时,难以定位简单的逻辑错误,存在推理能力差距。
📝 摘要(中文)
多模态大型语言模型(MLLMs)在视觉-语言任务上取得了显著进展,但它们的推理过程有时仍然不可靠。我们引入了PRISM-Bench,这是一个基于谜题的可视化挑战基准,旨在评估模型不仅能否解决问题,还能评估它们的推理过程如何展开。与以往仅测量最终答案准确性的评估不同,PRISM-Bench引入了一个诊断任务:给定一个视觉谜题和一个包含恰好一个错误的逐步思维链(CoT),模型必须识别第一个不正确的步骤。这种设置能够对逻辑一致性、错误检测和视觉推理进行细粒度的评估。PRISM-Bench中的谜题需要多步骤的符号、几何和类比推理,从而避免了基于表面模式匹配的捷径。对最先进的MLLM的评估揭示了流畅生成和忠实推理之间持续存在的差距:产生看似合理的CoT的模型通常无法定位简单的逻辑错误。通过将答案生成与推理验证分离,PRISM-Bench为多模态推理能力提供了一个更清晰的视角,并强调了在可信MLLM的开发中采用诊断评估协议的必要性。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型(MLLMs)在视觉推理任务中,推理过程不可靠且缺乏有效评估的问题。现有方法通常只关注最终答案的准确性,而忽略了模型内部的推理步骤,无法诊断模型推理过程中的错误和不足。这使得我们难以信任 MLLM 的推理结果,尤其是在需要高可靠性的应用场景中。
核心思路:论文的核心思路是通过构建一个基于谜题的视觉任务基准(PRISM-Bench),并引入链式思维(CoT)错误检测机制,来更全面、细致地评估 MLLM 的推理能力。通过要求模型不仅解决谜题,还要识别 CoT 中存在的错误步骤,从而将答案生成与推理验证分离,更准确地衡量模型的逻辑一致性和错误检测能力。
技术框架:PRISM-Bench 的整体框架包含以下几个关键组成部分:1) 谜题设计:设计了一系列需要多步骤推理的视觉谜题,涵盖符号、几何和类比推理等多种类型。2) CoT生成:为每个谜题生成一个包含正确推理步骤的 CoT,并人为地在其中插入一个错误步骤。3) 评估任务:要求 MLLM 解决谜题,并识别 CoT 中第一个错误步骤。4) 评估指标:除了最终答案的准确率外,还评估模型识别错误步骤的准确率,以及生成 CoT 的质量。
关键创新:PRISM-Bench 的关键创新在于引入了 CoT 错误检测任务,这使得可以对 MLLM 的推理过程进行更细粒度的评估。与以往只关注最终答案的评估方法相比,PRISM-Bench 能够诊断模型在推理过程中出现的错误,从而更好地理解模型的推理能力。此外,PRISM-Bench 的谜题设计也避免了模型通过简单的模式匹配来解决问题,而是需要进行真正的推理。
关键设计:PRISM-Bench 的关键设计包括:1) 谜题的多样性:设计了多种类型的谜题,以测试模型在不同推理场景下的能力。2) 错误步骤的插入:在 CoT 中插入的错误步骤是经过精心设计的,既要保证错误是逻辑上的,又要避免过于明显,以增加检测的难度。3) 评估指标的综合性:除了准确率外,还考虑了生成 CoT 的流畅性和合理性,以更全面地评估模型的推理能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是最先进的MLLM,在PRISM-Bench上也表现出显著的推理能力差距。模型虽然能够生成看似合理的CoT,但往往无法准确识别其中的逻辑错误。这表明现有MLLM在流畅生成和忠实推理之间存在脱节,需要进一步改进。
🎯 应用场景
PRISM-Bench 可用于评估和改进多模态大型语言模型的推理能力,尤其是在需要高可靠性的应用领域,如医疗诊断、自动驾驶和金融分析等。通过诊断模型推理过程中的错误,可以提高模型的可信度,并为开发更安全、更可靠的人工智能系统提供指导。
📄 摘要(原文)
Multimodal large language models (MLLMs) have achieved remarkable progress on vision-language tasks, yet their reasoning processes remain sometimes unreliable. We introduce PRISM-Bench, a benchmark of puzzle-based visual challenges designed to evaluate not only whether models can solve problems, but how their reasoning unfolds. Unlike prior evaluations that measure only final-answer accuracy, PRISM-Bench introduces a diagnostic task: given a visual puzzle and a step-by-step chain-of-thought (CoT) containing exactly one error, models must identify the first incorrect step. This setting enables fine-grained assessment of logical consistency, error detection, and visual reasoning. The puzzles in PRISM-Bench require multi-step symbolic, geometric, and analogical reasoning, resisting shortcuts based on superficial pattern matching. Evaluations across state-of-the-art MLLMs reveal a persistent gap between fluent generation and faithful reasoning: models that produce plausible CoTs often fail to locate simple logical faults. By disentangling answer generation from reasoning verification, PRISM-Bench offers a sharper lens on multimodal reasoning competence and underscores the need for diagnostic evaluation protocols in the development of trustworthy MLLMs.