Re$^2$: A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions

📄 arXiv: 2505.07920v1 📥 PDF

作者: Daoze Zhang, Zhijian Bao, Sihang Du, Zhiyi Zhao, Kuangling Zhang, Dezheng Bao, Yang Yang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-12

备注: 2 figures, 5 tables


💡 一句话要点

提出Re^2数据集,用于促进同行评审全流程和多轮回复讨论研究。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 同行评审 数据集 大型语言模型 自然语言处理 论文写作 评审辅助 多轮对话

📋 核心要点

  1. 现有同行评审数据集在数据多样性、一致性和质量方面存在不足,并且缺乏对作者-审稿人交互的支持。
  2. Re^2数据集通过收集初始提交、评审意见和反驳,并构建多轮对话模式,来解决现有数据集的局限性。
  3. Re^2数据集包含大量数据,旨在支持静态评审任务和动态交互式LLM助手,从而减轻评审负担。

📝 摘要(中文)

同行评审是人工智能等领域科学进步的关键组成部分,但投稿量的快速增长给评审系统带来了压力,不可避免地导致审稿人短缺和评审质量下降。除了研究的日益普及之外,重复提交不合格的稿件也是造成这种超负荷的另一个关键因素,这主要是由于缺乏有效的工具供作者在提交前自我评估其工作。大型语言模型(LLM)在协助作者和审稿人方面显示出巨大的潜力,但其性能从根本上受到同行评审数据质量的限制。然而,现有的同行评审数据集面临三个主要限制:(1)数据多样性有限,(2)由于使用修改后的而非初始提交的数据,导致数据不一致且质量低,以及(3)对涉及反驳和审稿人-作者互动任务的支持不足。为了应对这些挑战,我们推出了最大的、一致性得到保证的同行评审和反驳数据集Re^2,该数据集包含来自OpenReview上24个会议和21个研讨会的19,926份初始提交、70,668条评审意见和53,818条反驳。此外,反驳和讨论阶段被构建为多轮对话模式,以支持传统的静态评审任务和动态交互式LLM助手,为作者改进稿件提供更实用的指导,并有助于减轻日益增长的评审负担。我们的数据和代码可在https://anonymous.4open.science/r/ReviewBench_anon/ 获取。

🔬 方法详解

问题定义:现有同行评审数据集存在数据多样性不足、数据质量不高(使用修改稿而非初稿),以及对作者与审稿人之间交互(如反驳环节)支持不足的问题。这些问题限制了大型语言模型在辅助同行评审方面的应用,阻碍了相关研究的进展。

核心思路:Re^2数据集的核心思路是构建一个大规模、高质量、一致性强的同行评审数据集,该数据集不仅包含初始提交的论文,还包含审稿人的评审意见以及作者针对评审意见的反驳。通过将反驳环节建模成多轮对话,Re^2数据集能够更好地支持作者与审稿人之间的交互,从而为开发更有效的同行评审辅助工具提供数据基础。

技术框架:Re^2数据集的构建流程主要包括以下几个步骤:1) 数据收集:从OpenReview平台收集了24个会议和21个研讨会的同行评审数据,包括初始提交的论文、审稿人的评审意见以及作者针对评审意见的反驳。2) 数据清洗:对收集到的数据进行清洗和过滤,去除重复数据和不完整数据,确保数据的质量。3) 数据组织:将评审意见和反驳组织成多轮对话的形式,方便后续研究使用。

关键创新:Re^2数据集的关键创新在于其数据的一致性和对作者-审稿人交互的支持。传统数据集通常使用修改后的论文,这导致数据不一致。Re^2数据集使用初始提交的论文,保证了数据的一致性。此外,Re^2数据集将反驳环节建模成多轮对话,更好地支持了作者与审稿人之间的交互。

关键设计:Re^2数据集的关键设计包括:1) 收集初始提交的论文,保证数据一致性;2) 将评审意见和反驳组织成多轮对话的形式,方便后续研究使用;3) 数据集规模大,包含19,926份初始提交、70,668条评审意见和53,818条反驳。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Re^2数据集是目前最大的、一致性得到保证的同行评审和反驳数据集,包含近2万篇初始提交论文和超过12万条评审意见和反驳。该数据集将反驳环节建模成多轮对话,为研究作者与审稿人之间的交互提供了新的视角。

🎯 应用场景

Re^2数据集可用于训练大型语言模型,以辅助作者进行论文写作和修改,提高论文质量。同时,也可用于开发智能评审系统,减轻审稿人的负担,提高评审效率。该数据集还有助于研究作者与审稿人之间的交互模式,从而改进同行评审流程。

📄 摘要(原文)

Peer review is a critical component of scientific progress in the fields like AI, but the rapid increase in submission volume has strained the reviewing system, which inevitably leads to reviewer shortages and declines review quality. Besides the growing research popularity, another key factor in this overload is the repeated resubmission of substandard manuscripts, largely due to the lack of effective tools for authors to self-evaluate their work before submission. Large Language Models (LLMs) show great promise in assisting both authors and reviewers, and their performance is fundamentally limited by the quality of the peer review data. However, existing peer review datasets face three major limitations: (1) limited data diversity, (2) inconsistent and low-quality data due to the use of revised rather than initial submissions, and (3) insufficient support for tasks involving rebuttal and reviewer-author interactions. To address these challenges, we introduce the largest consistency-ensured peer review and rebuttal dataset named Re^2, which comprises 19,926 initial submissions, 70,668 review comments, and 53,818 rebuttals from 24 conferences and 21 workshops on OpenReview. Moreover, the rebuttal and discussion stage is framed as a multi-turn conversation paradigm to support both traditional static review tasks and dynamic interactive LLM assistants, providing more practical guidance for authors to refine their manuscripts and helping alleviate the growing review burden. Our data and code are available in https://anonymous.4open.science/r/ReviewBench_anon/.