RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation
作者: Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman Cohan
分类: cs.CL, cs.AI
发布日期: 2026-03-10
💡 一句话要点
RbtAct:利用同行评审反驳意见,生成更具可操作性的评审反馈
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 同行评审 反馈生成 可操作性 反驳意见 大型语言模型 监督学习 偏好优化
📋 核心要点
- 现有AI生成的评审报告缺乏可操作性,无法为作者提供具体可实施的指导,是当前评审反馈生成面临的核心问题。
- RbtAct的核心思想是利用作者对评审意见的反驳作为隐式监督信号,优化反馈生成器,使其更具可操作性。
- 实验结果表明,RbtAct在可操作性和具体性方面优于现有基线,同时保持了评审意见的基础性和相关性。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地应用于科学工作流程,包括起草同行评审报告。然而,许多AI生成的评审报告过于表面化,缺乏足够的可操作性,使作者无法获得具体的、可实施的指导,这正是本研究试图解决的问题。我们提出了RbtAct,它以可操作的评审反馈生成为目标,并将现有的同行评审反驳意见置于学习的中心。反驳意见表明了哪些评审意见导致了具体的修改或计划,哪些仅仅是被辩护。基于这一洞察,我们利用反驳意见作为隐式监督,直接优化反馈生成器,使其更具可操作性。为了支持这一目标,我们提出了一项名为“视角条件下的段落级评审反馈生成”的新任务,该任务要求模型基于完整的论文和指定的视角(如实验和写作)生成一个集中的评论。我们还构建了一个名为RMR-75K的大型数据集,该数据集将评审段落映射到解决这些段落的反驳段落,并带有视角标签和影响类别,用于对作者的采纳情况进行排序。然后,我们使用监督微调在评审段落上训练Llama-3.1-8B-Instruct模型,然后使用从反驳意见中导出的配对进行偏好优化。与人类专家和LLM-as-a-judge进行的实验表明,与强大的基线相比,在可操作性和具体性方面始终如一地获得了提升,同时保持了基础性和相关性。
🔬 方法详解
问题定义:论文旨在解决AI生成的同行评审报告缺乏可操作性的问题。现有方法生成的评审意见往往过于宽泛和表面化,无法为作者提供明确的修改建议,导致作者难以改进论文质量。
核心思路:论文的核心思路是将作者对评审意见的反驳(rebuttal)视为一种隐式的监督信号。作者的反驳行为表明了哪些评审意见是作者认为需要修改的(actionable),哪些是作者认为无需修改的(non-actionable)。通过学习这种隐式信息,可以训练模型生成更具可操作性的评审反馈。
技术框架:RbtAct的技术框架主要包含以下几个部分:1) 数据集构建:构建了一个名为RMR-75K的大型数据集,该数据集将评审段落与对应的反驳段落进行映射,并标注了视角标签和影响类别。2) 模型训练:首先使用监督微调(SFT)在评审段落上训练Llama-3.1-8B-Instruct模型,使其具备生成评审反馈的能力。然后,使用从反驳意见中导出的配对数据进行偏好优化,进一步提升模型生成可操作性反馈的能力。3) 视角条件下的段落级评审反馈生成:模型需要根据完整的论文和指定的视角(如实验、写作等)生成一个集中的评论。
关键创新:论文的关键创新在于:1) 提出了利用反驳意见作为隐式监督信号来提升评审反馈可操作性的方法。2) 构建了一个包含评审段落、反驳段落、视角标签和影响类别的大型数据集RMR-75K。3) 提出了视角条件下的段落级评审反馈生成任务。
关键设计:论文的关键设计包括:1) 数据集构建过程中,如何将评审段落与对应的反驳段落进行准确映射。2) 偏好优化过程中,如何从反驳意见中导出有效的配对数据,以指导模型学习可操作性。3) 如何设计视角条件下的段落级评审反馈生成任务,以引导模型生成更具针对性的评审意见。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RbtAct在可操作性和具体性方面显著优于现有基线。与人类专家和LLM-as-a-judge进行的评估显示,RbtAct生成的评审反馈更具针对性,能够为作者提供更明确的修改建议。具体性能数据(例如,可操作性评分、具体性评分)和提升幅度(相对于基线)在论文中进行了详细展示。
🎯 应用场景
RbtAct的研究成果可以应用于自动同行评审系统,帮助生成更具可操作性的评审反馈,从而提高论文质量和评审效率。此外,该方法还可以推广到其他需要生成反馈意见的场景,例如代码审查、产品评论等。未来,该研究有望促进AI在科学研究领域的更广泛应用。
📄 摘要(原文)
Large language models (LLMs) are increasingly used across the scientific workflow, including to draft peer-review reports. However, many AI-generated reviews are superficial and insufficiently actionable, leaving authors without concrete, implementable guidance and motivating the gap this work addresses. We propose RbtAct, which targets actionable review feedback generation and places existing peer review rebuttal at the center of learning. Rebuttals show which reviewer comments led to concrete revisions or specific plans, and which were only defended. Building on this insight, we leverage rebuttal as implicit supervision to directly optimize a feedback generator for actionability. To support this objective, we propose a new task called perspective-conditioned segment-level review feedback generation, in which the model is required to produce a single focused comment based on the complete paper and a specified perspective such as experiments and writing. We also build a large dataset named RMR-75K that maps review segments to the rebuttal segments that address them, with perspective labels and impact categories that order author uptake. We then train the Llama-3.1-8B-Instruct model with supervised fine-tuning on review segments followed by preference optimization using rebuttal derived pairs. Experiments with human experts and LLM-as-a-judge show consistent gains in actionability and specificity over strong baselines while maintaining grounding and relevance.