THEMIS: Towards Holistic Evaluation of MLLMs for Scientific Paper Fraud Forensics

📄 arXiv: 2603.25089v1 📥 PDF

作者: Tzu-Yen Ma, Bo Zhang, Zichen Tang, Junpeng Ding, Haolin Tian, Yuanze Li, Zhuodi Hao, Zixin Ding, Zirui Wang, Xinyu Yu, Shiyao Peng, Yizhuo Zhao, Ruomeng Jiang, Yiling Huang, Peizhi Zhao, Jiayuan Chen, Weisheng Tan, Haocheng Gao, Yang Liu, Jiacheng Liu, Zhongjun Yang, Jiayu Huang, Haihong E

分类: cs.CV

发布日期: 2026-03-26

备注: Accepted to ICLR 2026


💡 一句话要点

提出THEMIS基准,用于多模态大语言模型在科学论文欺诈取证中的整体评估

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 科学论文欺诈取证 视觉欺诈推理 基准数据集 多任务学习

📋 核心要点

  1. 现有基准难以覆盖真实学术欺诈场景的复杂性和多样性,模型推理能力不足。
  2. THEMIS通过构建包含真实案例和合成数据的多任务基准,提升模型在视觉欺诈推理方面的能力。
  3. 实验表明,即使是GPT-5在THEMIS上的表现也仅为56.15%,证明了基准的挑战性和价值。

📝 摘要(中文)

本文提出了THEMIS,一个新颖的多任务基准,旨在全面评估多模态大语言模型(MLLMs)在真实学术场景中的视觉欺诈推理能力。与现有基准相比,THEMIS引入了三个主要进展。(1)真实场景和复杂性:我们的基准包含超过4000个问题,涵盖七个场景,这些场景源自真实的已撤回论文案例和精心策划的多模态合成数据。THEMIS拥有60.47%的复杂纹理图像,弥合了现有基准与真实学术欺诈的复杂性之间的关键差距。(2)欺诈类型多样性和粒度:THEMIS系统地涵盖了五种具有挑战性的欺诈类型,并引入了16种细粒度的操作。平均而言,每个样本都经过多次堆叠操作,这些操作的多样性和难度要求模型具有高水平的视觉欺诈推理能力。(3)多维度能力评估:我们建立了从欺诈类型到五个核心视觉欺诈推理能力的映射,从而能够进行评估,揭示不同模型在这些核心能力方面的独特优势和具体弱点。对16个领先的MLLM的实验表明,即使是性能最佳的模型GPT-5,其总体性能也仅为56.15%,这表明我们的基准提出了一个严格的测试。我们期望THEMIS能够推动MLLM在复杂、真实的欺诈推理任务中的发展。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLMs)在科学论文欺诈取证方面的能力评估问题。现有基准数据集无法充分模拟真实学术场景的复杂性和多样性,导致模型在实际应用中表现不佳。现有方法缺乏对欺诈类型和操作的细粒度覆盖,难以全面评估模型的视觉欺诈推理能力。

核心思路:论文的核心思路是构建一个更贴近真实学术欺诈场景的多任务基准数据集THEMIS,该数据集包含真实撤稿论文案例和精心设计的合成数据,覆盖多种欺诈类型和细粒度操作。通过建立欺诈类型与核心视觉推理能力的映射,实现对模型的多维度能力评估。

技术框架:THEMIS基准数据集的构建流程主要包括以下几个阶段:1) 数据收集:收集真实的已撤回论文案例,并分析其中的欺诈类型和操作。2) 数据合成:基于真实案例,设计并生成包含多种欺诈类型和细粒度操作的多模态合成数据。3) 问题构建:针对每个数据样本,构建多个问题,涵盖不同的视觉欺诈推理能力。4) 评估指标:定义评估模型性能的指标,包括总体准确率和针对不同欺诈类型和推理能力的细分指标。

关键创新:THEMIS的关键创新在于:1) 真实场景和复杂性:数据集源自真实撤稿论文案例,包含复杂纹理图像,更贴近实际应用场景。2) 欺诈类型多样性和粒度:系统地覆盖五种欺诈类型和16种细粒度操作,更全面地评估模型能力。3) 多维度能力评估:建立了欺诈类型与核心视觉推理能力的映射,可以更深入地分析模型的优势和弱点。

关键设计:THEMIS数据集包含超过4000个问题,涵盖七个场景。60.47%的图像具有复杂纹理。每个样本平均经过多次堆叠操作。评估指标包括总体准确率和针对不同欺诈类型和推理能力的细分指标。论文没有详细说明损失函数和网络结构等技术细节,这部分信息未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是性能最佳的GPT-5模型在THEMIS上的总体性能也仅为56.15%,远低于人类水平,表明该基准具有很高的挑战性。不同模型在不同欺诈类型和推理能力上的表现差异显著,揭示了现有模型在视觉欺诈推理方面的局限性,为未来的研究方向提供了指导。

🎯 应用场景

THEMIS基准数据集可用于训练和评估多模态大语言模型在科学论文欺诈检测方面的能力,有助于提高学术出版的质量和可信度。该研究成果还可应用于其他领域的图像欺诈检测,例如金融欺诈、新闻真实性验证等,具有重要的社会价值。

📄 摘要(原文)

We present THEMIS, a novel multi-task benchmark designed to comprehensively evaluate multimodal large language models (MLLMs) on visual fraud reasoning within real-world academic scenarios. Compared to existing benchmarks, THEMIS introduces three major advances. (1) Real-World Scenarios and Complexity: Our benchmark comprises over 4,000 questions spanning seven scenarios, derived from authentic retracted-paper cases and carefully curated multimodal synthetic data. With 60.47% complex-texture images, THEMIS bridges the critical gap between existing benchmarks and the complexity of real-world academic fraud. (2) Fraud-Type Diversity and Granularity: THEMIS systematically covers five challenging fraud types and introduces 16 fine-grained manipulation operations. On average, each sample undergoes multiple stacked manipulation operations, with the diversity and difficulty of these manipulations demanding a high level of visual fraud reasoning from the models. (3) Multi-Dimensional Capability Evaluation: We establish a mapping from fraud types to five core visual fraud reasoning capabilities, thereby enabling an evaluation that reveals the distinct strengths and specific weaknesses of different models across these core capabilities. Experiments on 16 leading MLLMs show that even the best-performing model, GPT-5, achieves an overall performance of only 56.15%, demonstrating that our benchmark presents a stringent test. We expect THEMIS to advance the development of MLLMs for complex, real-world fraud reasoning tasks.