ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

作者: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou

分类: cs.CL, cs.AI, cs.CE

发布日期: 2025-03-27 (更新: 2025-07-01)

💡 一句话要点

提出ResearchBench，用于评估LLM在科学发现中基于灵感的任务分解能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 科学发现 基准测试 灵感检索 假设构建 自动化科研 知识关联

📋 核心要点

现有方法缺乏专门基准来评估LLM在科学发现中生成高质量研究假设的能力。
论文提出ResearchBench基准，包含灵感检索、假设构建和假设排序等子任务，评估LLM性能。
实验表明LLM在灵感检索任务中表现良好，具备发现新知识关联的潜力。

📝 摘要（中文）

大型语言模型（LLMs）在辅助科学研究方面展现出潜力，但由于缺乏专门的基准测试，它们发现高质量研究假设的能力仍未得到检验。为了解决这一问题，我们推出了首个大规模基准测试ResearchBench，用于评估LLMs在科学发现的近乎完备的子任务集上的表现，包括灵感检索、假设构建和假设排序。我们开发了一个自动化框架，从12个学科的科学论文中提取关键组成部分——研究问题、背景调查、灵感和假设，并通过专家验证确认其准确性。为了防止数据污染，我们专门关注2024年发表的论文，确保与LLM预训练数据的重叠最小。我们的评估表明，LLMs在检索灵感这一分布外任务中表现良好，表明它们能够发现新的知识关联。这使得LLMs成为“研究假设矿”，能够通过大规模生成创新假设，以最小的人工干预促进自动化科学发现。

🔬 方法详解

问题定义：论文旨在解决缺乏有效基准测试来评估大型语言模型（LLMs）在科学发现领域，特别是生成高质量研究假设方面的能力的问题。现有方法无法系统地衡量LLMs在科学研究中的辅助作用，阻碍了LLMs在该领域的应用和发展。现有方法的痛点在于缺乏一个包含足够多科学发现子任务，且数据质量高、无数据污染的基准数据集。

核心思路：论文的核心思路是构建一个名为ResearchBench的大规模基准测试，该基准测试包含科学发现过程中的关键子任务，包括灵感检索、假设构建和假设排序。通过评估LLMs在这些子任务上的表现，可以更全面地了解LLMs在科学发现中的潜力。此外，论文还强调了数据质量和避免数据污染的重要性，通过自动化框架提取2024年发表的论文数据，并进行专家验证。

技术框架：ResearchBench的整体框架包括以下几个主要阶段：1) 数据收集：从12个学科的科学论文中提取研究问题、背景调查、灵感和假设等关键组成部分。2) 数据清洗和验证：通过自动化框架和专家验证，确保数据的准确性和质量。3) 任务定义：定义灵感检索、假设构建和假设排序等子任务。4) 模型评估：使用LLMs在这些子任务上进行评估，并分析结果。

关键创新：论文的关键创新在于：1) 提出了首个大规模的科学发现基准测试ResearchBench，填补了该领域的空白。2) 开发了一个自动化框架，能够高效地从科学论文中提取关键信息，并保证数据质量。3) 通过关注2024年发表的论文，有效避免了数据污染问题。4) 评估了LLMs在灵感检索这一分布外任务中的表现，揭示了LLMs发现新知识关联的潜力。

关键设计：论文的关键设计包括：1) 任务分解：将科学发现过程分解为灵感检索、假设构建和假设排序等子任务，使得评估更加细粒度和全面。2) 数据选择：选择2024年发表的论文，以避免数据污染。3) 评估指标：使用合适的评估指标来衡量LLMs在各个子任务上的表现（具体评估指标未知）。4) 自动化框架：开发自动化框架以高效提取数据，并进行专家验证以保证数据质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLMs在灵感检索这一分布外任务中表现良好，这表明LLMs具备发现新知识关联的潜力。这一发现突显了LLMs作为“研究假设矿”的价值，能够通过大规模生成创新假设，以最小的人工干预促进自动化科学发现。具体的性能数据和对比基线在摘要中未提及，属于未知信息。

🎯 应用场景

该研究成果可应用于自动化科学发现流程，辅助科研人员快速检索相关文献、生成创新性研究假设，并对假设进行排序和筛选。这有助于加速科学研究进程，提高科研效率，并可能促进跨学科的知识融合与创新。未来，该基准测试可用于持续评估和提升LLMs在科学研究中的能力。

📄 摘要（原文）

Large language models (LLMs) have demonstrated potential in assisting scientific research, yet their ability to discover high-quality research hypotheses remains unexamined due to the lack of a dedicated benchmark. To address this gap, we introduce the first large-scale benchmark for evaluating LLMs with a near-sufficient set of sub-tasks of scientific discovery: inspiration retrieval, hypothesis composition, and hypothesis ranking. We develop an automated framework that extracts critical components - research questions, background surveys, inspirations, and hypotheses - from scientific papers across 12 disciplines, with expert validation confirming its accuracy. To prevent data contamination, we focus exclusively on papers published in 2024, ensuring minimal overlap with LLM pretraining data. Our evaluation reveals that LLMs perform well in retrieving inspirations, an out-of-distribution task, suggesting their ability to surface novel knowledge associations. This positions LLMs as "research hypothesis mines", capable of facilitating automated scientific discovery by generating innovative hypotheses at scale with minimal human intervention.

ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理