Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025

作者: Nitya Thakkar, Mert Yuksekgonul, Jake Silberg, Animesh Garg, Nanyun Peng, Fei Sha, Rose Yu, Carl Vondrick, James Zou

分类: cs.AI, cs.CL, cs.HC, cs.LG

发布日期: 2025-04-13

备注: 30 pages, 7 figures

🔗 代码/项目: GITHUB

💡 一句话要点

利用LLM反馈提升评审质量：ICLR 2025大规模随机对照研究

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 同行评审 评审质量 自动化反馈 ICLR 自然语言处理 可靠性测试

📋 核心要点

AI会议评审面临投稿量激增的挑战，导致评审质量下降和作者满意度降低。
论文提出Review Feedback Agent，利用LLM为评审员提供自动反馈，提高评审清晰度和可操作性。
ICLR 2025实验表明，AI反馈能显著提升评审质量，增加评审长度和作者互动。

📝 摘要（中文）

人工智能会议的同行评审因投稿量激增而面临压力，导致评审质量下降和作者满意度降低。为了解决这些问题，我们开发了Review Feedback Agent，该系统利用多个大型语言模型（LLM）通过向评审员提供关于模糊评论、内容误解和不专业言论的自动反馈，来提高评审的清晰度和可操作性。该系统在ICLR 2025上以大型随机对照研究的形式实施，为超过20,000份随机选择的评审提供了可选反馈。为了确保大规模评审的高质量反馈，我们还开发了一套由LLM驱动的自动可靠性测试，作为保障反馈质量的护栏，只有通过所有测试的反馈才会发送给评审员。结果表明，27%收到反馈的评审员更新了他们的评审，并且这些评审员采纳了来自agent的超过12,000条反馈建议。这表明许多评审员认为AI生成的反馈足够有帮助，值得更新他们的评审。盲法研究人员评估发现，采纳AI反馈导致评审显著变长（收到反馈后更新的评审平均增加了80个单词）且信息量更大。此外，被选中接收AI反馈的评审员在论文反驳期间也更加积极，这体现在更长的作者-评审员讨论中。这项工作表明，精心设计的LLM生成的评审反馈可以通过使评审更具体和可操作，同时增加评审员和作者之间的互动来提高同行评审质量。Review Feedback Agent可在https://github.com/zou-group/review_feedback_agent公开获取。

🔬 方法详解

问题定义：当前AI会议的同行评审系统面临着评审质量下降和作者满意度降低的问题。现有方法缺乏有效的机制来帮助评审员改进其评审意见，导致评审意见模糊、不具体，甚至包含不专业的言论。这不仅影响了评审的质量，也降低了作者对评审过程的信任度。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大能力，为评审员提供自动化的反馈，从而提高评审的质量和可操作性。通过分析评审意见，LLM可以识别出模糊的评论、内容上的误解以及不专业的言论，并给出相应的改进建议。这样可以帮助评审员更清晰、更准确地表达自己的观点，从而提高评审的质量。

技术框架：Review Feedback Agent系统的整体架构包含以下几个主要模块：1) 评审意见接收模块：负责接收评审员提交的评审意见。2) LLM反馈生成模块：利用多个LLM对评审意见进行分析，生成反馈建议。3) 可靠性测试模块：使用LLM驱动的自动可靠性测试来评估反馈建议的质量，确保只有高质量的反馈才能发送给评审员。4) 反馈发送模块：将通过可靠性测试的反馈建议发送给评审员。5) 评审意见更新模块：记录评审员是否采纳反馈建议并更新评审意见。6) 效果评估模块：通过盲法研究和统计分析来评估AI反馈对评审质量的影响。

关键创新：该论文的关键创新在于将LLM应用于同行评审过程，并设计了一套自动化的反馈系统。与传统的同行评审方法相比，该系统能够更有效地帮助评审员改进其评审意见，提高评审的质量和可操作性。此外，该系统还引入了可靠性测试模块，确保了反馈建议的质量，避免了LLM生成的不准确或不恰当的反馈对评审过程产生负面影响。

关键设计：为了确保反馈的质量，论文设计了一套基于LLM的自动可靠性测试。这些测试包括：1) 事实一致性测试：验证反馈建议是否与论文内容一致。2) 逻辑一致性测试：验证反馈建议是否符合逻辑。3) 礼貌性测试：验证反馈建议是否礼貌、专业。只有通过所有测试的反馈建议才能发送给评审员。此外，论文还采用了多种LLM模型，并对这些模型进行了微调，以提高其在评审反馈生成方面的性能。

🖼️ 关键图片

📊 实验亮点

ICLR 2025的实验结果表明，27%收到反馈的评审员更新了评审，采纳了超过12,000条反馈建议。采纳AI反馈的评审平均增加了80个单词，信息量更大。此外，接收AI反馈的评审员在论文反驳期间也更加积极，作者-评审员讨论更长。

🎯 应用场景

该研究成果可广泛应用于学术会议、期刊等同行评审场景，提升评审质量和效率，改善作者体验。未来，该技术可扩展到其他需要反馈和改进的写作场景，例如论文写作、报告撰写等，具有广阔的应用前景。

📄 摘要（原文）

Peer review at AI conferences is stressed by rapidly rising submission volumes, leading to deteriorating review quality and increased author dissatisfaction. To address these issues, we developed Review Feedback Agent, a system leveraging multiple large language models (LLMs) to improve review clarity and actionability by providing automated feedback on vague comments, content misunderstandings, and unprofessional remarks to reviewers. Implemented at ICLR 2025 as a large randomized control study, our system provided optional feedback to more than 20,000 randomly selected reviews. To ensure high-quality feedback for reviewers at this scale, we also developed a suite of automated reliability tests powered by LLMs that acted as guardrails to ensure feedback quality, with feedback only being sent to reviewers if it passed all the tests. The results show that 27% of reviewers who received feedback updated their reviews, and over 12,000 feedback suggestions from the agent were incorporated by those reviewers. This suggests that many reviewers found the AI-generated feedback sufficiently helpful to merit updating their reviews. Incorporating AI feedback led to significantly longer reviews (an average increase of 80 words among those who updated after receiving feedback) and more informative reviews, as evaluated by blinded researchers. Moreover, reviewers who were selected to receive AI feedback were also more engaged during paper rebuttals, as seen in longer author-reviewer discussions. This work demonstrates that carefully designed LLM-generated review feedback can enhance peer review quality by making reviews more specific and actionable while increasing engagement between reviewers and authors. The Review Feedback Agent is publicly available at https://github.com/zou-group/review_feedback_agent.

Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理