NovBench: Evaluating Large Language Models on Academic Paper Novelty Assessment

📄 arXiv: 2604.11543v1 📥 PDF

作者: Wenqing Wu, Yi Zhao, Yuzhuo Wang, Siyou Li, Juexi Shao, Yunfei Long, Chengzhi Zhang

分类: cs.CL, cs.AI, cs.DL, cs.IR

发布日期: 2026-04-13

备注: ACL 2026


💡 一句话要点

提出NovBench基准,用于评估大型语言模型在学术论文新颖性评估中的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 新颖性评估 同行评审 基准数据集 自然语言处理

📋 核心要点

  1. 同行评审中新颖性评估至关重要,但日益增长的投稿量给评审人员带来巨大压力,亟需自动化辅助工具。
  2. 论文构建了NovBench基准,包含论文引言中的新颖性描述和专家评审,用于评估LLM生成新颖性评估的能力。
  3. 实验表明现有LLM对科学新颖性的理解有限,微调模型存在指令遵循问题,需改进微调策略。

📝 摘要(中文)

论文提出了NovBench,这是一个大规模基准,旨在评估大型语言模型(LLM)在支持人工同行评审中生成新颖性评估的能力。NovBench包含来自顶级自然语言处理会议的1684个论文-评审对,包括从论文引言中提取的新颖性描述以及相应的专家撰写的新颖性评估。该基准同时关注论文引言和专家评估,因为引言提供了对新颖性声明的标准化和明确的表达,而专家评估代表了当前人类判断的黄金标准之一。此外,论文提出了一个四维评估框架(包括相关性、正确性、覆盖率和清晰度)来评估LLM生成的新颖性评估的质量。对通用和专用LLM在不同提示策略下的广泛实验表明,当前的模型对科学新颖性的理解有限,并且微调后的模型经常存在指令遵循缺陷。这些发现强调需要有针对性的微调策略,以共同提高新颖性理解和指令遵循。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在学术论文新颖性评估方面的能力不足问题。现有方法依赖人工评审,效率低且成本高。虽然LLM在生成评审意见方面展现潜力,但缺乏专门的基准来系统评估其新颖性评估能力。因此,论文关注如何利用LLM辅助甚至部分替代人工进行论文新颖性评估,从而减轻评审负担。

核心思路:论文的核心思路是构建一个高质量的基准数据集,并设计合理的评估框架,从而能够全面评估LLM在新颖性评估任务上的表现。通过分析LLM在基准上的表现,可以发现其在新颖性理解和指令遵循方面的不足,进而指导模型改进。论文同时关注论文引言(标准化的新颖性声明)和专家评审(黄金标准),保证了评估的全面性和客观性。

技术框架:NovBench基准包含1684个论文-评审对,数据来源于顶级NLP会议。对于每篇论文,数据集包含:1) 论文引言中提取的新颖性描述;2) 专家撰写的新颖性评估。论文还提出了一个四维评估框架,用于评估LLM生成的新颖性评估的质量,包括:1) 相关性 (Relevance);2) 正确性 (Correctness);3) 覆盖率 (Coverage);4) 清晰度 (Clarity)。实验中,研究者使用了不同的LLM(通用和专用模型)和提示策略,并使用四维评估框架对LLM的输出进行评估。

关键创新:论文的主要创新在于:1) 提出了NovBench,这是首个大规模的、专门用于评估LLM在学术论文新颖性评估能力上的基准;2) 构建了包含论文引言和专家评审的新颖性评估数据集,保证了评估的全面性和客观性;3) 提出了一个四维评估框架,能够全面评估LLM生成的新颖性评估的质量。

关键设计:NovBench数据集的构建过程包括:1) 从NLP会议论文集中选取论文;2) 从论文引言中提取新颖性描述;3) 获取专家撰写的新颖性评估。四维评估框架的具体定义如下:1) 相关性:LLM生成的评估是否与论文的新颖性相关;2) 正确性:LLM生成的评估是否准确反映了论文的新颖性;3) 覆盖率:LLM生成的评估是否覆盖了论文新颖性的各个方面;4) 清晰度:LLM生成的评估是否清晰易懂。实验中,研究者尝试了不同的提示策略,例如零样本提示、少样本提示等,以探索LLM的最佳性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有LLM在NovBench基准上的表现有限,尤其是在理解科学新颖性和遵循指令方面。微调后的模型虽然在某些指标上有所提升,但仍然存在指令遵循问题。这些结果强调了需要开发更有效的微调策略,以提高LLM在新颖性评估任务上的性能。

🎯 应用场景

该研究成果可应用于自动化同行评审系统,辅助评审人员快速评估论文的新颖性,提高评审效率,缓解评审压力。同时,该基准可用于训练和评估专门用于新颖性评估的LLM,提升其在学术领域的应用价值。未来,该研究可扩展到其他学术领域,构建更通用的新颖性评估系统。

📄 摘要(原文)

Novelty is a core requirement in academic publishing and a central focus of peer review, yet the growing volume of submissions has placed increasing pressure on human reviewers. While large language models (LLMs), including those fine-tuned on peer review data, have shown promise in generating review comments, the absence of a dedicated benchmark has limited systematic evaluation of their ability to assess research novelty. To address this gap, we introduce NovBench, the first large-scale benchmark designed to evaluate LLMs' capability to generate novelty evaluations in support of human peer review. NovBench comprises 1,684 paper-review pairs from a leading NLP conference, including novelty descriptions extracted from paper introductions and corresponding expert-written novelty evaluations. We focus on both sources because the introduction provides a standardized and explicit articulation of novelty claims, while expert-written novelty evaluations constitute one of the current gold standards of human judgment. Furthermore, we propose a four-dimensional evaluation framework (including Relevance, Correctness, Coverage, and Clarity) to assess the quality of LLM-generated novelty evaluations. Extensive experiments on both general and specialized LLMs under different prompting strategies reveal that current models exhibit limited understanding of scientific novelty, and that fine--tuned models often suffer from instruction-following deficiencies. These findings underscore the need for targeted fine-tuning strategies that jointly improve novelty comprehension and instruction adherence.