PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies
作者: Lukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin
分类: cs.CV
发布日期: 2025-10-18 (更新: 2025-10-21)
💡 一句话要点
提出PRISMM-Bench以解决多模态科学论文中的不一致性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态模型 科学推理 不一致性检测 审稿挖掘 基准测试 人工验证 大型语言模型
📋 核心要点
- 现有基准测试未能有效捕捉科学论文中多模态的不一致性,导致模型在实际应用中的可靠性不足。
- 论文提出了PRISMM-Bench基准,基于真实审稿人标记的不一致性,设计了三个评估任务以测试模型能力。
- 实验结果显示21个领先的LMMs在多模态科学推理中的表现较低,强调了该领域的研究需求和进展潜力。
📝 摘要(中文)
大型多模态模型(LMMs)在科学研究中的应用日益增加,但它们是否能够可靠地理解和推理论文中的多模态复杂性仍不明确。检测和解决文本、图形、表格和方程之间的不一致性是一个核心挑战。现有基准测试忽视了这一问题,通常只关注单一模态或依赖于合成错误。我们提出了PRISMM-Bench,这是第一个基于真实审稿人标记的不一致性基准。通过多阶段的审稿挖掘、LLM辅助过滤和人工验证,我们从242篇论文中整理了262个不一致性。基于这一数据集,我们设计了不一致性识别、补救和配对匹配三个任务,以评估模型在不同模态间检测、纠正和推理不一致性的能力。我们还引入了结构化的JSON答案表示,减少了语言偏见。对21个领先的LMMs进行基准测试,结果显示性能显著较低(26.1-54.2%),突显了多模态科学推理的挑战。
🔬 方法详解
问题定义:论文要解决的问题是如何检测和解决科学论文中不同模态(如文本、图形、表格和方程)之间的不一致性。现有方法通常只关注单一模态或依赖合成错误,无法反映真实世界的复杂性。
核心思路:论文的核心解决思路是通过真实审稿人标记的不一致性来构建基准,利用多阶段的审稿挖掘和人类验证,确保数据的真实性和可靠性。
技术框架:整体架构包括审稿挖掘、LLM辅助过滤和人工验证三个主要阶段。首先,从科学论文中挖掘出潜在的不一致性,然后利用大型语言模型进行初步筛选,最后通过人工验证确保数据的准确性。
关键创新:最重要的技术创新点在于引入了基于真实审稿人标记的不一致性数据集,填补了现有基准测试的空白。此外,结构化的JSON答案表示减少了模型在多选评估中的语言偏见。
关键设计:关键设计包括数据集的构建方法、任务的定义以及评估标准,确保模型在检测和纠正不一致性时能够充分发挥其能力。
🖼️ 关键图片
📊 实验亮点
实验结果显示,21个领先的LMMs在处理多模态科学推理任务时的性能仅为26.1%至54.2%,这表明当前模型在理解和推理科学论文中的多模态信息方面存在显著不足,强调了进一步研究的必要性。
🎯 应用场景
该研究的潜在应用领域包括科学研究中的自动化审稿、智能助手和文献分析工具。通过提高多模态模型在科学推理中的可靠性,未来可以促进科学研究的透明性和可重复性,增强研究人员对AI工具的信任。
📄 摘要(原文)
Large Multimodal Models (LMMs) are increasingly applied to scientific research, yet it remains unclear whether they can reliably understand and reason over the multimodal complexity of papers. A central challenge lies in detecting and resolving inconsistencies across text, figures, tables, and equations, issues that are often subtle, domain-specific, and ultimately undermine clarity, reproducibility, and trust. Existing benchmarks overlook this issue, either isolating single modalities or relying on synthetic errors that fail to capture real-world complexity. We introduce PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models), the first benchmark grounded in real reviewer-flagged inconsistencies in scientific papers. Through a multi-stage pipeline of review mining, LLM-assisted filtering and human verification, we curate 262 inconsistencies from 242 papers. Based on this set, we design three tasks, namely inconsistency identification, remedy and pair matching, which assess a model's capacity to detect, correct, and reason over inconsistencies across different modalities. Furthermore, to address the notorious problem of choice-only shortcuts in multiple-choice evaluation, where models exploit answer patterns without truly understanding the question, we further introduce structured JSON-based answer representations that minimize linguistic biases by reducing reliance on superficial stylistic cues. We benchmark 21 leading LMMs, including large open-weight models (GLM-4.5V 106B, InternVL3 78B) and proprietary models (Gemini 2.5 Pro, GPT-5 with high reasoning). Results reveal strikingly low performance (26.1-54.2%), underscoring the challenge of multimodal scientific reasoning and motivating progress towards trustworthy scientific assistants.