MMReview: A Multidisciplinary and Multimodal Benchmark for LLM-Based Peer Review Automation

作者: Xian Gao, Jiacheng Ruan, Zongyun Zhang, Jingsheng Gao, Ting Liu, Yuzhuo Fu

分类: cs.CL

发布日期: 2025-08-19 (更新: 2025-10-08)

备注: Work in progress

💡 一句话要点

提出MMReview以解决学术同行评审自动化的评估标准缺失问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 同行评审 大型语言模型 多模态内容 评估基准 自动化系统 跨学科研究 人工智能

📋 核心要点

当前LLM在同行评审中的应用缺乏统一的评估标准，难以全面评估其生成评审的能力。
MMReview通过设计多模态内容和专家评论，提供了一个跨学科的综合评估基准，涵盖多种评审任务。
实验结果表明，MMReview在评估LLMs和MLLMs的性能方面具有显著的有效性，推动了自动化评审系统的发展。

📝 摘要（中文）

随着学术出版物的快速增长，同行评审已成为研究社区中一项重要但耗时的责任。大型语言模型（LLMs）越来越多地被用于生成评审评论，但当前的LLM评审任务缺乏统一的评估基准，无法严格评估模型在生成全面、准确且符合人类偏好的评估方面的能力，尤其是在涉及图表等多模态内容的场景中。为了解决这一问题，我们提出了MMReview，这是一个涵盖多个学科和模态的综合基准。MMReview包含240篇论文的多模态内容和专家撰写的评审评论，涵盖人工智能、自然科学、工程科学和社会科学四个主要学科的17个研究领域。我们设计了13个任务，分为四个核心类别，旨在评估LLMs和多模态LLMs（MLLMs）在逐步生成评审、结果形成、人类偏好对齐和对抗输入操控的鲁棒性方面的表现。对16个开源模型和5个先进闭源模型进行的广泛实验展示了基准的全面性。我们希望MMReview成为建立自动化同行评审系统标准化基础的重要一步。

🔬 方法详解

问题定义：论文要解决的具体问题是现有LLM在同行评审中的应用缺乏统一的评估基准，导致无法有效评估其生成评审的全面性和准确性。现有方法在处理多模态内容（如图表）时表现不足。

核心思路：论文提出MMReview作为一个综合基准，涵盖多学科和多模态内容，设计了多项任务以评估LLMs和MLLMs的评审生成能力。通过引入专家撰写的评论，增强了评估的权威性和实用性。

技术框架：MMReview的整体架构包括四个核心类别的任务，共13个任务，分别评估逐步生成评审、结果形成、人类偏好对齐和对抗输入的鲁棒性。每个任务都针对特定的评估目标，确保全面性。

关键创新：MMReview的主要创新在于其跨学科和多模态的设计，填补了现有评估基准的空白，使得评估更加全面和准确。与现有方法相比，MMReview能够更好地处理复杂的多模态输入。

关键设计：在设计中，MMReview采用了专家撰写的评论作为基准，确保了评估的高标准。同时，任务设计考虑了不同学科的特点，确保了评估的适用性和有效性。

📊 实验亮点

实验结果显示，MMReview在评估LLMs和MLLMs的性能方面具有显著的有效性。通过对16个开源模型和5个闭源模型的测试，MMReview能够有效区分模型在生成评审时的表现，推动了自动化评审系统的标准化进程。

🎯 应用场景

该研究的潜在应用领域包括学术出版、科研评审和自动化评审系统的开发。MMReview为研究人员提供了一个标准化的评估工具，促进了同行评审的自动化进程，提升了评审的效率和质量，未来可能对学术界产生深远影响。

📄 摘要（原文）

With the rapid growth of academic publications, peer review has become an essential yet time-consuming responsibility within the research community. Large Language Models (LLMs) have increasingly been adopted to assist in the generation of review comments; however, current LLM-based review tasks lack a unified evaluation benchmark to rigorously assess the models' ability to produce comprehensive, accurate, and human-aligned assessments, particularly in scenarios involving multimodal content such as figures and tables. To address this gap, we propose \textbf{MMReview}, a comprehensive benchmark that spans multiple disciplines and modalities. MMReview includes multimodal content and expert-written review comments for 240 papers across 17 research domains within four major academic disciplines: Artificial Intelligence, Natural Sciences, Engineering Sciences, and Social Sciences. We design a total of 13 tasks grouped into four core categories, aimed at evaluating the performance of LLMs and Multimodal LLMs (MLLMs) in step-wise review generation, outcome formulation, alignment with human preferences, and robustness to adversarial input manipulation. Extensive experiments conducted on 16 open-source models and 5 advanced closed-source models demonstrate the thoroughness of the benchmark. We envision MMReview as a critical step toward establishing a standardized foundation for the development of automated peer review systems.

MMReview: A Multidisciplinary and Multimodal Benchmark for LLM-Based Peer Review Automation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册