ProjectionBench: Evaluating Scientific Hypothesis Generation in LLMs Under Progressive Information Disclosure

作者: A. J. Lew, Y. Cao, M. J. Buehler

分类: cs.AI

发布日期: 2026-05-28

备注: 19 pages, 4 figures

💡 一句话要点

ProjectionBench：提出一种渐进式信息披露的LLM科学假设生成评估框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 科学发现 假设生成 基准测试 渐进式信息披露 语义相似性 创新推理

📋 核心要点

现有LLM基准测试缺乏对科学发现中创新推理能力的有效评估，无法充分衡量其在科学研究中的潜力。
提出ProjectionBench框架，通过渐进式信息披露，评估LLM在不同信息阶段生成科学假设的创新性和推理能力。
实验结果表明，GPT-5.4在信息有限的情况下仍能保持较高的假设生成质量，验证了该框架的有效性。

📝 摘要（中文）

科学发现是一个具有创造性和不确定性的过程，需要超越已知知识的回忆进行推理。虽然已经提出了许多基准来评估大型语言模型（LLM）在多跳检索等深度研究任务中的性能，但对于真正科学发现至关重要的创新推理能力仍然在很大程度上未经测试。本文介绍了一个基准框架，用于评估模型在科学发现和推理方面的性能，从原始问题构建到经典的零假设检验。在该框架中，模型最初仅接收来自最近论文的主题和研究问题，并逐步揭示技术细节。在信息披露的每个阶段，模型都需要生成解决研究问题的假设，并将其与原始论文的结论进行比较，并通过构成原子声明的自动语义相似性进行评估。这种对与真实结论的语义差异的渐进式评估，能够评估模型在最小信息下的创新性，以及在完整实验细节下的扎实推理能力，这对于将LLM用于科学发现目的至关重要。该框架为系统地评估LLM中的科学推理和发现能力奠定了基础，这对于推进下一代AI科学家/合作科学家系统的开发至关重要。具体而言，本文评估了GPT-5、GPT-5.4、Gemini 2.5 pro和Gemini 3.1 pro preview在涵盖生物活性材料、机械材料和纳米材料的45篇论文中的表现。结果表明，GPT-5.4和Gemini 3.1 pro的性能优于其前代产品，特别是GPT-5.4即使在最小的上下文下也能保持与真实结论的0.7 F1分数对齐。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）在科学发现领域的应用潜力巨大，但缺乏有效的评估方法来衡量其创新推理能力。现有的基准测试主要集中在知识检索和多跳推理方面，无法充分评估LLM在信息不完整的情况下生成新假设的能力，这对于科学研究至关重要。因此，需要一种新的基准测试方法来评估LLM在科学发现中的创新性和推理能力。

核心思路：ProjectionBench的核心思路是通过渐进式信息披露的方式，模拟科学研究中逐步获取信息的过程。模型首先只获得研究主题和问题，然后逐步获得更多的实验细节。在每个阶段，模型都需要生成假设，并与原始论文的结论进行比较。通过评估模型在不同信息阶段的假设生成质量，可以衡量其创新性和推理能力。这种渐进式评估方法能够更全面地评估LLM在科学发现中的潜力。

技术框架：ProjectionBench框架包含以下主要阶段：1) 问题定义：从科学论文中提取研究主题和问题。2) 信息披露：逐步向模型提供实验细节。3) 假设生成：模型根据当前信息生成假设。4) 假设评估：将生成的假设与原始论文的结论进行比较，使用语义相似性指标进行评估。整个流程模拟了科学家在研究过程中逐步获取信息并形成假设的过程。

关键创新：ProjectionBench的关键创新在于其渐进式信息披露的评估方法。与传统的基准测试不同，ProjectionBench不是一次性提供所有信息，而是逐步披露信息，从而更真实地模拟了科学研究的过程。这种方法能够更有效地评估LLM在信息不完整的情况下生成新假设的能力，从而更好地衡量其创新性和推理能力。

关键设计：在ProjectionBench中，关键的设计包括：1) 信息披露策略：如何选择和排序要披露的信息。2) 假设生成提示：如何设计提示语以引导模型生成高质量的假设。3) 语义相似性指标：如何选择合适的指标来衡量生成假设与原始结论之间的相似性。此外，还需要选择合适的科学论文作为评估数据集，并确保数据集的多样性和代表性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GPT-5.4和Gemini 3.1 pro在ProjectionBench上的表现优于其前代产品。特别是GPT-5.4，即使在最小的上下文信息下，也能保持与真实结论的0.7 F1分数对齐。这表明GPT-5.4在科学假设生成方面具有较强的创新性和推理能力，验证了ProjectionBench框架的有效性。

🎯 应用场景

该研究成果可应用于开发下一代AI科学家/合作科学家系统，辅助科研人员进行科学发现。通过评估LLM在科学假设生成方面的能力，可以更好地利用LLM进行文献综述、实验设计和结果分析，加速科学研究进程，尤其是在材料科学、生物医药等领域具有广阔的应用前景。

📄 摘要（原文）

Scientific discovery is an inherently creative and uncertain process, requiring reasoning beyond the recall of known knowledge. While many benchmarks have been proposed to evaluate large language model (LLM) performance on deep research tasks via multi-hop retrieval, their innovative reasoning abilities essential for true scientific discovery remain largely untested. We introduce a benchmark framework for evaluating model performance in scientific discovery and reasoning, building up from a raw problem to the classical null hypothesis test. In our framework, models initially receive only the topic and research question from a recent paper, with technical details progressively revealed. At each stage of information disclosure, the model is tasked with generating hypotheses that address the research question, which is compared with the conclusions from the original paper and evaluated via automated semantic similarity of constituent atomic claims. This progressive evaluation of semantic divergence from ground-truth conclusions enables assessment of a model's innovativeness (under minimal information) to grounded reasoning capabilities (under full experimental details), both critical for using LLMs for scientific discovery purposes. Our framework provides a foundation for systematically evaluating scientific reasoning and discovery capabilities in LLMs, crucial for advancing the development of next-generation AI scientist/co-scientist systems. Specifically, here we evaluate GPT-5, GPT-5.4, Gemini 2.5 pro, and Gemini 3.1 pro preview across 45 papers spanning bioactive materials, mechanical materials, and nanomaterials. We find that GPT-5.4 and Gemini 3.1 pro outperform their previous generation counterparts as expected, and GPT-5.4 in particular maintains 0.7 F1 score alignment with ground truth conclusions even under minimal context.

ProjectionBench: Evaluating Scientific Hypothesis Generation in LLMs Under Progressive Information Disclosure

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理