SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?

📄 arXiv: 2605.30329v1 📥 PDF

作者: Sy-Tuyen Ho, Minghui Liu, Huy Nghiem, Furong Huang

分类: cs.LG

发布日期: 2026-05-28

备注: Project Page: https://hosytuyen.github.io/projects/SoundnessBench


💡 一句话要点

SoundnessBench:评估AI科学家判断科研提案合理性的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 科研提案评估 合理性判断 基准测试 科学研究自动化

📋 核心要点

  1. 现有AI研究Agent缺乏在早期阶段评估科研提案方法论合理性的能力,导致资源浪费。
  2. SoundnessBench通过收集ICLR提交的提案,并结合审稿人评分进行标注,构建评估LLM合理性判断能力的基准。
  3. 实验表明,现有LLM在评估科研提案合理性时存在乐观偏差,无法可靠地作为独立的初步评估工具。

📝 摘要(中文)

自主AI研究Agent旨在通过自动化研究流程(从假设生成到同行评审)来加速科学发现。然而,现有基准测试很少测试一个根本瓶颈:大型语言模型(LLM)能否在耗费时间和计算资源之前判断研究思路的方法论可行性。我们引入SoundnessBench,这是一个精心策划的基准,包含从ICLR提交中重建的1099个机器学习研究提案,标注了审稿人对合理性的评分,并根据源论文进行了审核。SoundnessBench应被解释为可恢复的提案阶段合理性的基准,而不是完整论文评审结果的精确预测。在12个前沿LLM中,我们发现了一种普遍的乐观偏差:在标准提示下,模型经常将低合理性的提案评为合理,而激进的提示则主要将错误从假阳性转移到假阴性。对公共语料库污染、论文识别短语、表面特征和人工审核质量的额外控制表明,这种行为不能用单一的混淆因素来解释。我们的结果表明,目前的LLM还不能作为科学严谨性的独立第一道评估关。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在科学研究自动化流程中,对科研提案方法论合理性判断不足的问题。现有方法缺乏有效的评估标准,导致LLM无法准确区分高质量和低质量的科研思路,从而可能浪费大量计算资源和时间。

核心思路:论文的核心思路是构建一个高质量的基准测试集SoundnessBench,该基准包含大量带有专家标注的科研提案,用于评估LLM判断科研提案合理性的能力。通过分析LLM在SoundnessBench上的表现,揭示其在科学研究评估方面的局限性。

技术框架:SoundnessBench的构建流程主要包括以下几个阶段:1) 从ICLR提交的论文中提取研究提案;2) 根据审稿人的合理性评分对提案进行标注;3) 对提案进行人工审核,确保标注的准确性;4) 设计不同的prompting策略,用于评估LLM的性能。整体框架旨在模拟科研提案的评审流程,为评估LLM的科研能力提供一个标准化的平台。

关键创新:该论文的关键创新在于构建了一个专门用于评估LLM科研提案合理性判断能力的基准测试集SoundnessBench。与现有基准测试不同,SoundnessBench关注的是提案阶段的合理性,而非最终论文的评审结果,更贴近实际科研流程的早期阶段。此外,论文还对LLM的乐观偏差进行了深入分析,并提出了相应的prompting策略。

关键设计:SoundnessBench包含1099个机器学习研究提案,这些提案来自ICLR提交的论文。论文使用了审稿人的soundness sub-scores作为标注,并进行了人工审核以确保标注质量。在实验中,论文采用了多种prompting策略,包括标准prompting和aggressive prompting,以评估LLM在不同条件下的性能。此外,论文还考虑了公共语料库污染、论文识别短语等因素对结果的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在SoundnessBench上,现有LLM普遍存在乐观偏差,即容易将低合理性的提案评为合理。通过aggressive prompting,可以减少假阳性错误,但会增加假阴性错误。实验还排除了公共语料库污染等因素对结果的影响,进一步证实了LLM在科研提案合理性判断方面的局限性。

🎯 应用场景

该研究成果可应用于自动化科研流程,辅助科研人员快速筛选高质量的科研提案,减少资源浪费。同时,该基准测试集SoundnessBench可作为评估和改进LLM科研能力的重要工具,推动AI在科学研究领域的应用。

📄 摘要(原文)

Autonomous AI research agents aim to accelerate scientific discovery by automating the research pipeline, from hypothesis generation to peer review. However, existing benchmarks rarely test a fundamental bottleneck: whether Large Language Models can judge the methodological viability of a research idea before expending time and computational resources. We introduce SoundnessBench, a curated benchmark of 1,099 machine-learning research proposals reconstructed from ICLR submissions, labeled with reviewer soundness sub-scores, and audited against source papers. SoundnessBench should be interpreted as a benchmark for recoverable proposal-stage soundness rather than exact prediction of full-paper review outcomes. Across 12 frontier LLMs, we find a pervasive optimism bias: under standard prompting, models frequently rate low-soundness proposals as sound, while aggressive prompting largely shifts errors from false positives to false negatives. Additional controls for public-corpus contamination, paper-identifying phrases, surface features, and human audit quality suggest that this behavior is not explained by a single confounder. Our results indicate that current LLMs are not yet reliable as standalone first-gate evaluators for scientific rigor.