Unveiling the Merits and Defects of LLMs in Automatic Review Generation for Scientific Papers
作者: Ruochi Li, Haoxuan Zhang, Edward Gehringer, Ting Xiao, Junhua Ding, Haihua Chen
分类: cs.CL, cs.AI
发布日期: 2025-09-13
备注: Accepted as short paper at 25th IEEE International Conference on Data Mining
🔗 代码/项目: GITHUB
💡 一句话要点
提出综合评估框架,揭示大语言模型在科学论文自动评审中的优缺点。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动评审 大型语言模型 同行评审 知识图谱 语义相似性
📋 核心要点
- 传统同行评审压力大,现有方法难以应对激增的论文投稿量,亟需探索自动评审方法。
- 提出综合评估框架,结合语义相似性分析和知识图谱指标,全面评估LLM生成评审的质量。
- 实验表明,LLM在描述性内容方面表现良好,但在识别论文弱点和提出实质性问题方面存在不足。
📝 摘要(中文)
科学论文投稿数量激增,传统同行评审压力巨大,促使人们探索使用大型语言模型(LLM)进行自动评审生成。虽然LLM在生成结构化和连贯的反馈方面表现出能力,但其批判性推理、上下文理解和质量敏感性仍然有限。为了系统地评估这些方面,我们提出了一个综合评估框架,该框架集成了语义相似性分析和结构化知识图谱指标,以评估LLM生成的评论与人工撰写的评论的对比。我们构建了一个大规模基准,包含来自ICLR和NeurIPS多年份的1,683篇论文和6,495份专家评审,并使用五个LLM生成评审。我们的研究结果表明,LLM在描述性和肯定性内容方面表现良好,能够捕捉原始工作的主要贡献和方法,其中GPT-4o是一个例证,在ICLR 2025优秀论文的优势部分生成的实体比人类评审员多15.74%。然而,它们在识别弱点、提出实质性问题以及根据论文质量调整反馈方面始终表现不佳。GPT-4o在弱点中产生的实体比真实评审员少59.42%,并且从优秀论文到较差论文的节点计数仅增加5.7%,而人类评审则为50%。在所有会议、年份和模型中都观察到类似的趋势,为理解LLM生成评论的优点和缺点提供了经验基础,并为开发未来的LLM辅助评审工具提供了信息。数据、代码和更详细的结果可在https://github.com/RichardLRC/Peer-Review公开获取。
🔬 方法详解
问题定义:论文旨在解决科学论文评审过程中,由于投稿数量激增导致的评审压力过大的问题。现有的人工评审成本高、耗时,且容易受到主观因素影响。利用LLM进行自动评审面临的痛点在于,LLM在批判性推理、上下文理解和质量敏感性方面存在不足,难以全面准确地评估论文的质量。
核心思路:论文的核心思路是通过构建一个综合性的评估框架,系统地分析LLM在自动评审中的优缺点。该框架结合了语义相似性分析和结构化知识图谱指标,将LLM生成的评审与人工评审进行对比,从而量化LLM在不同方面的表现。通过这种方式,可以更清晰地了解LLM在哪些方面表现良好,在哪些方面需要改进。
技术框架:该研究的技术框架主要包含以下几个阶段:1) 构建大规模的评审数据集,包含论文和对应的专家评审;2) 使用不同的LLM生成对论文的自动评审;3) 利用语义相似性分析方法,比较LLM生成评审和人工评审在内容上的相似度;4) 构建论文和评审的知识图谱,并利用图谱指标评估LLM在识别论文关键信息和提出有价值反馈方面的能力;5) 对比LLM在不同质量论文上的评审表现,分析其质量敏感性。
关键创新:论文的关键创新在于提出了一个综合性的评估框架,能够从多个维度评估LLM在自动评审中的表现。该框架不仅考虑了LLM生成评审的内容相似度,还关注了其在知识图谱层面的表现,从而更全面地揭示了LLM的优缺点。此外,论文还构建了一个大规模的评审数据集,为后续研究提供了基础。
关键设计:论文的关键设计包括:1) 使用BLEU、ROUGE等指标进行语义相似性分析,评估LLM生成评审的内容质量;2) 构建论文和评审的知识图谱,提取实体和关系,并计算节点数量、边数量等图谱指标,评估LLM在识别关键信息方面的能力;3) 将论文分为不同质量等级(例如,优秀、一般、较差),并分析LLM在不同质量等级论文上的评审表现,评估其质量敏感性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4o在描述性和肯定性内容方面表现良好,在ICLR 2025优秀论文的优势部分生成的实体比人类评审员多15.74%。然而,GPT-4o在弱点中产生的实体比真实评审员少59.42%,并且从优秀论文到较差论文的节点计数仅增加5.7%,而人类评审则为50%。这些数据清晰地揭示了LLM在自动评审中的优势和不足。
🎯 应用场景
该研究成果可应用于开发LLM辅助的论文评审工具,减轻评审人员的负担,提高评审效率。通过了解LLM在评审中的优缺点,可以针对性地改进LLM,使其在自动评审中发挥更大的作用。此外,该研究也为其他领域的LLM应用提供了借鉴,例如自动代码评审、自动文档校对等。
📄 摘要(原文)
The surge in scientific submissions has placed increasing strain on the traditional peer-review process, prompting the exploration of large language models (LLMs) for automated review generation. While LLMs demonstrate competence in producing structured and coherent feedback, their capacity for critical reasoning, contextual grounding, and quality sensitivity remains limited. To systematically evaluate these aspects, we propose a comprehensive evaluation framework that integrates semantic similarity analysis and structured knowledge graph metrics to assess LLM-generated reviews against human-written counterparts. We construct a large-scale benchmark of 1,683 papers and 6,495 expert reviews from ICLR and NeurIPS in multiple years, and generate reviews using five LLMs. Our findings show that LLMs perform well in descriptive and affirmational content, capturing the main contributions and methodologies of the original work, with GPT-4o highlighted as an illustrative example, generating 15.74% more entities than human reviewers in the strengths section of good papers in ICLR 2025. However, they consistently underperform in identifying weaknesses, raising substantive questions, and adjusting feedback based on paper quality. GPT-4o produces 59.42% fewer entities than real reviewers in the weaknesses and increases node count by only 5.7% from good to weak papers, compared to 50% in human reviews. Similar trends are observed across all conferences, years, and models, providing empirical foundations for understanding the merits and defects of LLM-generated reviews and informing the development of future LLM-assisted reviewing tools. Data, code, and more detailed results are publicly available at https://github.com/RichardLRC/Peer-Review.