PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection
作者: Yusu Qian, Cheng Wan, Chao Jia, Yinfei Yang, Qingyu Zhao, Zhe Gan
分类: cs.CV
发布日期: 2025-10-27 (更新: 2025-12-01)
备注: This paper's first error detection task's ground truth data contains hallucination introduced by gpt and needs to be withdrawn
💡 一句话要点
PRISM-Bench:一个基于谜题的可解释多模态推理评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉推理 推理诊断 错误检测 评测基准
📋 核心要点
- 现有MLLM在视觉推理中存在推理过程不可靠的问题,缺乏对推理过程的细粒度评估。
- PRISM-Bench通过设计谜题和错误诊断任务,评估模型推理的逻辑一致性、错误检测和视觉推理能力。
- 实验表明,现有MLLM在流畅生成CoT的同时,难以定位推理过程中的逻辑错误,揭示了生成与验证之间的差距。
📝 摘要(中文)
多模态大型语言模型(MLLM)在视觉-语言任务上取得了显著进展,但其推理过程有时仍不可靠。我们推出了PRISM-Bench,这是一个基于谜题的视觉挑战基准,旨在评估模型是否能解决问题,以及它们的推理如何展开。与以往仅衡量最终答案准确性的评估不同,PRISM-Bench引入了一项诊断任务:给定一个视觉谜题和一个包含恰好一个错误的逐步思维链(CoT),模型必须识别第一个不正确的步骤。这种设置能够对逻辑一致性、错误检测和视觉推理进行细粒度评估。PRISM-Bench中的谜题需要多步骤的符号、几何和类比推理,抵制基于表面模式匹配的捷径。对最先进的MLLM的评估揭示了流畅生成和忠实推理之间持续存在的差距:产生看似合理的CoT的模型常常无法定位简单的逻辑错误。通过将答案生成与推理验证分离,PRISM-Bench为多模态推理能力提供了一个更清晰的视角,并强调了在可信MLLM的开发中诊断评估协议的必要性。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型(MLLM)在视觉推理任务中推理过程不可靠的问题。现有方法主要关注最终答案的准确性,忽略了对模型推理过程的评估,导致模型可能通过表面模式匹配等捷径获得正确答案,而无法真正理解和解决问题。因此,需要一种能够评估模型推理过程的基准,以诊断模型的逻辑一致性、错误检测和视觉推理能力。
核心思路:论文的核心思路是通过设计基于谜题的视觉挑战,并引入错误诊断任务,来评估MLLM的推理过程。具体来说,给定一个视觉谜题和一个包含一个错误的逐步思维链(CoT),模型需要识别出第一个不正确的步骤。这种方法将答案生成与推理验证分离,从而能够更清晰地评估模型的推理能力。
技术框架:PRISM-Bench基准包含一系列基于谜题的视觉挑战,每个挑战都包含一个视觉谜题和一个逐步思维链(CoT)。CoT中包含一个错误步骤。模型的任务是识别CoT中的第一个错误步骤。整个评估流程包括:1)向模型展示视觉谜题和CoT;2)模型分析CoT,并尝试识别错误步骤;3)评估模型识别错误步骤的准确性。
关键创新:PRISM-Bench的关键创新在于引入了错误诊断任务,能够对MLLM的推理过程进行细粒度评估。与以往仅关注最终答案准确性的评估方法不同,PRISM-Bench能够评估模型的逻辑一致性、错误检测和视觉推理能力。此外,PRISM-Bench中的谜题设计需要多步骤的符号、几何和类比推理,能够有效抵制基于表面模式匹配的捷径。
关键设计:PRISM-Bench中的谜题涵盖多种类型,包括符号推理、几何推理和类比推理。CoT的生成方式保证每个CoT中恰好包含一个错误步骤,并且错误步骤的位置是随机的。评估指标主要包括错误诊断的准确率,即模型正确识别错误步骤的比例。没有涉及具体的网络结构或损失函数的设计,重点在于基准数据集和评估方式的设计。
📊 实验亮点
实验结果表明,现有的最先进MLLM在PRISM-Bench上表现出显著的差距,即模型可以生成看似合理的CoT,但却难以定位CoT中的简单逻辑错误。这表明现有模型在流畅生成和忠实推理之间存在脱节。例如,一些模型在错误诊断任务上的准确率远低于其在传统视觉-语言任务上的准确率,突出了诊断评估协议的必要性。
🎯 应用场景
PRISM-Bench可用于评估和改进多模态大型语言模型的推理能力,尤其是在需要可信赖推理的场景中,例如医疗诊断、自动驾驶和金融分析。通过诊断模型推理过程中的错误,可以帮助研究人员开发更鲁棒、更可靠的MLLM,从而提高这些模型在实际应用中的安全性和有效性。此外,该基准还可以促进对人类认知和推理过程的理解。
📄 摘要(原文)
Multimodal large language models (MLLMs) have achieved remarkable progress on vision-language tasks, yet their reasoning processes remain sometimes unreliable. We introduce PRISM-Bench, a benchmark of puzzle-based visual challenges designed to evaluate not only whether models can solve problems, but how their reasoning unfolds. Unlike prior evaluations that measure only final-answer accuracy, PRISM-Bench introduces a diagnostic task: given a visual puzzle and a step-by-step chain-of-thought (CoT) containing exactly one error, models must identify the first incorrect step. This setting enables fine-grained assessment of logical consistency, error detection, and visual reasoning. The puzzles in PRISM-Bench require multi-step symbolic, geometric, and analogical reasoning, resisting shortcuts based on superficial pattern matching. Evaluations across state-of-the-art MLLMs reveal a persistent gap between fluent generation and faithful reasoning: models that produce plausible CoTs often fail to locate simple logical faults. By disentangling answer generation from reasoning verification, PRISM-Bench offers a sharper lens on multimodal reasoning competence and underscores the need for diagnostic evaluation protocols in the development of trustworthy MLLMs.