SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?

作者: Sy-Tuyen Ho, Minghui Liu, Huy Nghiem, Furong Huang

分类: cs.LG

发布日期: 2026-05-28

备注: Project Page: https://hosytuyen.github.io/projects/SoundnessBench

💡 一句话要点

SoundnessBench：评估AI科学家判断科研提案合理性的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 科研提案评估 合理性判断 基准测试 科学研究自动化

📋 核心要点

现有AI研究Agent缺乏在早期阶段评估科研提案方法论合理性的能力，导致资源浪费。
SoundnessBench通过收集ICLR提交的提案，并结合审稿人评分进行标注，构建评估LLM合理性判断能力的基准。
实验表明，现有LLM在评估科研提案合理性时存在乐观偏差，无法可靠地作为独立的初步评估工具。

📝 摘要（中文）

自主AI研究Agent旨在通过自动化研究流程（从假设生成到同行评审）来加速科学发现。然而，现有基准测试很少测试一个根本瓶颈：大型语言模型（LLM）能否在耗费时间和计算资源之前判断研究思路的方法论可行性。我们引入SoundnessBench，这是一个精心策划的基准，包含从ICLR提交中重建的1099个机器学习研究提案，标注了审稿人对合理性的评分，并根据源论文进行了审核。SoundnessBench应被解释为可恢复的提案阶段合理性的基准，而不是完整论文评审结果的精确预测。在12个前沿LLM中，我们发现了一种普遍的乐观偏差：在标准提示下，模型经常将低合理性的提案评为合理，而激进的提示则主要将错误从假阳性转移到假阴性。对公共语料库污染、论文识别短语、表面特征和人工审核质量的额外控制表明，这种行为不能用单一的混淆因素来解释。我们的结果表明，目前的LLM还不能作为科学严谨性的独立第一道评估关。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在科学研究自动化流程中，对科研提案方法论合理性判断不足的问题。现有方法缺乏有效的评估标准，导致LLM无法准确区分高质量和低质量的科研思路，从而可能浪费大量计算资源和时间。

核心思路：论文的核心思路是构建一个高质量的基准测试集SoundnessBench，该基准包含大量带有专家标注的科研提案，用于评估LLM判断科研提案合理性的能力。通过分析LLM在SoundnessBench上的表现，揭示其在科学研究评估方面的局限性。

技术框架：SoundnessBench的构建流程主要包括以下几个阶段：1) 从ICLR提交的论文中提取研究提案；2) 根据审稿人的合理性评分对提案进行标注；3) 对提案进行人工审核，确保标注的准确性；4) 设计不同的prompting策略，用于评估LLM的性能。整体框架旨在模拟科研提案的评审流程，为评估LLM的科研能力提供一个标准化的平台。

关键创新：该论文的关键创新在于构建了一个专门用于评估LLM科研提案合理性判断能力的基准测试集SoundnessBench。与现有基准测试不同，SoundnessBench关注的是提案阶段的合理性，而非最终论文的评审结果，更贴近实际科研流程的早期阶段。此外，论文还对LLM的乐观偏差进行了深入分析，并提出了相应的prompting策略。

关键设计：SoundnessBench包含1099个机器学习研究提案，这些提案来自ICLR提交的论文。论文使用了审稿人的soundness sub-scores作为标注，并进行了人工审核以确保标注质量。在实验中，论文采用了多种prompting策略，包括标准prompting和aggressive prompting，以评估LLM在不同条件下的性能。此外，论文还考虑了公共语料库污染、论文识别短语等因素对结果的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在SoundnessBench上，现有LLM普遍存在乐观偏差，即容易将低合理性的提案评为合理。通过aggressive prompting，可以减少假阳性错误，但会增加假阴性错误。实验还排除了公共语料库污染等因素对结果的影响，进一步证实了LLM在科研提案合理性判断方面的局限性。

🎯 应用场景

该研究成果可应用于自动化科研流程，辅助科研人员快速筛选高质量的科研提案，减少资源浪费。同时，该基准测试集SoundnessBench可作为评估和改进LLM科研能力的重要工具，推动AI在科学研究领域的应用。

📄 摘要（原文）

Autonomous AI research agents aim to accelerate scientific discovery by automating the research pipeline, from hypothesis generation to peer review. However, existing benchmarks rarely test a fundamental bottleneck: whether Large Language Models can judge the methodological viability of a research idea before expending time and computational resources. We introduce SoundnessBench, a curated benchmark of 1,099 machine-learning research proposals reconstructed from ICLR submissions, labeled with reviewer soundness sub-scores, and audited against source papers. SoundnessBench should be interpreted as a benchmark for recoverable proposal-stage soundness rather than exact prediction of full-paper review outcomes. Across 12 frontier LLMs, we find a pervasive optimism bias: under standard prompting, models frequently rate low-soundness proposals as sound, while aggressive prompting largely shifts errors from false positives to false negatives. Additional controls for public-corpus contamination, paper-identifying phrases, surface features, and human audit quality suggest that this behavior is not explained by a single confounder. Our results indicate that current LLMs are not yet reliable as standalone first-gate evaluators for scientific rigor.

SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理