LLMs Can Assist with Proposal Selection at Large User Facilities
作者: Lijie Ding, Janell Thomson, Jon Taylor, Changwoo Do
分类: cs.AI
发布日期: 2025-12-11
备注: 9 pages, 8figures
💡 一句话要点
利用大型语言模型优化大型用户设施的提案选择过程
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 提案选择 评审一致性 成本效益 科学研究 机器学习
📋 核心要点
- 传统提案选择方法存在提案间相关性弱、评审者偏见和不一致性等问题,影响评审质量。
- 本研究提出利用大型语言模型(LLMs)进行提案排名,克服传统方法的工作量限制,提供更一致的评估。
- 实验结果表明,LLM排名与人类排名高度相关,且在识别高潜力提案方面表现相当,成本显著降低。
📝 摘要(中文)
本研究探讨了如何利用大型语言模型(LLMs)提升大型用户设施的提案选择过程,提供了一种可扩展、一致且具有成本效益的替代方案。提案选择依赖于对提交提案的相对强度进行评估,但传统的人类评分常常受到提案间相关性弱、评审者偏见和不一致性的影响。基于成对偏好的方法在逻辑上更为优越,但其二次工作量使得人类评审者难以实施。我们利用LLMs解决了这一限制,展示了在橡树岭国家实验室的三个束流线中,LLM排名与人类排名之间的强相关性(Spearman $ρ ext{simeq} 0.2-0.8$,在去除10 ext{%}异常值后提高至$ ext{≥} 0.5$)。此外,LLM在识别高出版潜力提案方面的表现不逊于人类评审者,且成本降低了两个数量级。除了排名,LLMs还能够进行人类难以完成的高级分析,如通过嵌入模型进行提案相似性的定量评估,这为评审委员会提供了重要信息。
🔬 方法详解
问题定义:本论文旨在解决大型用户设施提案选择过程中的评审效率和一致性问题。现有方法依赖人类评审,容易受到主观偏见和不一致性影响,且工作量庞大。
核心思路:论文提出利用大型语言模型(LLMs)进行提案的成对偏好排名,以提高评审的一致性和准确性,同时降低成本。通过对提案的深度学习分析,LLMs能够提供更为客观的评估。
技术框架:整体流程包括数据收集、LLM训练、提案排名和相似性分析。首先,从橡树岭国家实验室的束流线收集提案和出版记录,然后训练LLM以生成排名,最后进行相似性分析以辅助评审。
关键创新:最重要的技术创新在于将LLMs应用于提案选择的成对偏好评估,克服了传统方法的工作量限制,实现了更高的评审一致性和准确性。
关键设计:在模型训练中,采用了特定的损失函数以优化排名准确性,并通过嵌入模型实现提案相似性的定量评估。模型参数经过精细调优,以确保在不同提案之间的有效比较。
🖼️ 关键图片
📊 实验亮点
实验结果显示,LLM排名与人类评审排名之间的Spearman相关系数在0.2至0.8之间,去除10%异常值后提高至≥0.5。此外,LLM在识别高出版潜力提案方面的表现与人类评审者相当,但成本降低了两个数量级,显示出其在提案选择中的巨大潜力。
🎯 应用场景
该研究的潜在应用领域包括科学研究、技术开发和资源分配等大型用户设施的提案评审。通过引入LLMs,评审过程将更加高效和一致,能够更好地识别高潜力的研究提案,提升资源利用效率,推动科学进步。未来,LLMs的应用可能扩展到其他领域的评审和选择过程。
📄 摘要(原文)
We explore how large language models (LLMs) can enhance the proposal selection process at large user facilities, offering a scalable, consistent, and cost-effective alternative to traditional human review. Proposal selection depends on assessing the relative strength among submitted proposals; however, traditional human scoring often suffers from weak inter-proposal correlations and is subject to reviewer bias and inconsistency. A pairwise preference-based approach is logically superior, providing a more rigorous and internally consistent basis for ranking, but its quadratic workload makes it impractical for human reviewers. We address this limitation using LLMs. Leveraging the uniquely well-curated proposals and publication records from three beamlines at the Spallation Neutron Source (SNS), Oak Ridge National Laboratory (ORNL), we show that the LLM rankings correlate strongly with the human rankings (Spearman $ρ\simeq 0.2-0.8$, improving to $\geq 0.5$ after 10\% outlier removal). Moreover, LLM performance is no worse than that of human reviewers in identifying proposals with high publication potential, while costing over two orders of magnitude less. Beyond ranking, LLMs enable advanced analyses that are challenging for humans, such as quantitative assessment of proposal similarity via embedding models, which provides information crucial for review committees.