From Isolated Scoring to Collaborative Ranking: A Comparison-Native Framework for LLM-Based Paper Evaluation
作者: Pujun Zheng, Jiacheng Yao, Jinquan Zheng, Chenyang Gu, Guoxiu He, Jiawei Liu, Yong Huang, Tianrui Guo, Wei Lu
分类: cs.IR, cs.CL
发布日期: 2026-03-18
🔗 代码/项目: GITHUB
💡 一句话要点
提出CNPE框架,将LLM论文评估从孤立评分转向协同排序,提升泛化能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 论文评估 协同排序 比较学习 图神经网络
📋 核心要点
- 现有LLM论文评估方法依赖孤立评分,忽略了评分标准随会议和时间变化的上下文依赖性,导致模型泛化能力不足。
- CNPE框架通过比较学习,将论文评估转化为协同排序问题,从而学习更鲁棒的学术判断,提升模型在不同数据集上的泛化能力。
- 实验表明,CNPE框架在多个未见过的数据集上,相比于DeepReview-14B基线,取得了显著的性能提升,平均相对改进达21.8%。
📝 摘要(中文)
目前,大型语言模型(LLM)在科学论文评估中通常采用独立评分的方式。然而,由于评分标准因会议、时间和评估标准而异,基于绝对分数训练的模型容易拟合狭隘的、特定于上下文的规则,而非发展稳健的学术判断。为了克服这一局限性,我们提出将论文评估从孤立评分转变为协同排序。具体而言,我们设计了一个用于论文评估的比较原生框架(CNPE),将比较融入到数据构建和模型学习中。我们首先提出一种基于图的相似性排序算法,以促进从论文集合中采样更具信息性和区分性的论文对。然后,通过有监督的微调和基于比较奖励的强化学习来增强相对质量判断。在推理时,模型对采样的论文对执行成对比较,并将这些偏好信号聚合为全局相对质量排序。实验结果表明,我们的框架比强大的基线DeepReview-14B平均相对改进了21.8%,同时对五个以前未见过的数据集表现出强大的泛化能力。
🔬 方法详解
问题定义:现有基于LLM的论文评估方法通常采用孤立评分的方式,即为每篇论文独立地分配一个绝对分数。这种方法的痛点在于,不同会议、不同时间段以及不同的评估标准下,评分尺度差异很大。因此,模型容易学习到特定上下文下的规则,而难以泛化到新的数据集上,缺乏鲁棒的学术判断能力。
核心思路:CNPE框架的核心思路是将论文评估问题从孤立评分转化为协同排序问题。通过让模型学习论文之间的相对质量关系,而不是绝对分数,可以减少对特定评分标准的依赖,从而提高模型的泛化能力。这种比较学习的思想更符合人类进行论文评估的习惯,即通过比较不同论文的优劣来确定其相对排名。
技术框架:CNPE框架主要包含三个阶段:数据构建、模型学习和推理排序。在数据构建阶段,使用基于图的相似性排序算法,从论文集合中采样信息量更大、区分度更高的论文对。在模型学习阶段,通过有监督的微调和基于比较奖励的强化学习,增强模型对论文相对质量的判断能力。在推理排序阶段,模型对采样的论文对进行成对比较,并将这些偏好信号聚合为全局相对质量排序。
关键创新:CNPE框架最重要的技术创新点在于将比较学习的思想引入到LLM论文评估中。与传统的孤立评分方法相比,CNPE框架能够学习到更鲁棒的学术判断,从而提高模型在不同数据集上的泛化能力。此外,基于图的相似性排序算法能够有效地采样信息量更大的论文对,进一步提升模型的学习效率。
关键设计:在数据构建阶段,图的构建方式和相似性度量方法会影响采样效果。在模型学习阶段,损失函数的设计和强化学习奖励函数的设置至关重要。具体的技术细节包括:如何构建论文相似性图,如何定义论文之间的相似度,如何设计有监督微调的损失函数,以及如何设计强化学习的奖励函数,以鼓励模型做出更准确的相对质量判断。这些细节在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CNPE框架在五个未见过的数据集上,相比于强大的基线DeepReview-14B,取得了显著的性能提升,平均相对改进达21.8%。这表明CNPE框架具有更强的泛化能力和鲁棒性,能够有效地应用于不同领域和不同类型的学术论文评估。
🎯 应用场景
CNPE框架可应用于学术会议的论文评审、科研基金的申请评估、以及在线学术论文推荐系统。通过提供更准确和鲁棒的论文质量评估,可以帮助评审人员更高效地筛选优秀论文,为科研基金分配提供更合理的依据,并为用户推荐更符合其兴趣的学术内容。该研究有助于提升学术评价的客观性和公正性,促进学术交流和科研创新。
📄 摘要(原文)
Large language models (LLMs) are currently applied to scientific paper evaluation by assigning an absolute score to each paper independently. However, since score scales vary across conferences, time periods, and evaluation criteria, models trained on absolute scores are prone to fitting narrow, context-specific rules rather than developing robust scholarly judgment. To overcome this limitation, we propose shifting paper evaluation from isolated scoring to collaborative ranking. In particular, we design \textbf{C}omparison-\textbf{N}ative framework for \textbf{P}aper \textbf{E}valuation (\textbf{CNPE}), integrating comparison into both data construction and model learning. We first propose a graph-based similarity ranking algorithm to facilitate the sampling of more informative and discriminative paper pairs from a collection. We then enhance relative quality judgment through supervised fine-tuning and reinforcement learning with comparison-based rewards. At inference, the model performs pairwise comparisons over sampled paper pairs and aggregates these preference signals into a global relative quality ranking. Experimental results demonstrate that our framework achieves an average relative improvement of \textbf{21.8\%} over the strong baseline DeepReview-14B, while exhibiting robust generalization to five previously unseen datasets. \href{https://github.com/ECNU-Text-Computing/ComparisonReview}{Code}.