LLM Jaggedness Unlocks Scientific Creativity

📄 arXiv: 2605.10574v1 📥 PDF

作者: Shray Mathur, J. Anibal Boscoboinik, Esther H. R. Tsai, Kevin G. Yager

分类: cs.AI

发布日期: 2026-05-11


💡 一句话要点

提出SciAidanBench基准并揭示LLM的“锯齿状”能力分布,通过模型集成提升科学创造力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 科学创造力 基准测试 模型集成 推理时计算 能力评估

📋 核心要点

  1. 现有研究忽视了LLM在科学创意生成任务中表现出的非均匀性,即模型在不同科学领域和问题类型上的能力分布存在显著的“锯齿状”差异。
  2. 论文提出了SciAidanBench基准,通过量化模型生成独特且连贯科学想法的能力,系统性地刻画了模型在跨任务、跨领域及跨提示词层面的能力不均衡性。
  3. 实验证明,利用这种锯齿状特征,通过推理时计算、知识池化等集成策略,可以构建出性能优于任何单一模型的元模型系统,显著提升科学发现的效率。

📝 摘要(中文)

随着人工智能的发展,模型能力的提升并非均匀,而是呈现出“锯齿状”(jaggedness)特征,即在不同任务、领域和规模间表现出不均衡。本文通过科学创意生成视角研究这一现象,引入了SciAidanBench基准,用于衡量大语言模型(LLM)的科学创造力。通过对8个供应商的19个基础模型(共30个变体)进行评估,研究发现:通用创造力的提升并不等同于科学创造力的提升;强模型在不同问题上的表现存在高度变异性;模型在不同科学子领域表现出碎片化的能力分布。研究进一步表明,这种锯齿状特征并非局限,而是一种可利用的资源。通过推理时计算、知识池化和头脑风暴等机制构建元模型集成,可有效超越单一模型的性能,从而放大LLM驱动的科学创造力。

🔬 方法详解

问题定义:论文旨在解决大语言模型在科学创意生成任务中表现出的“能力锯齿状”问题。现有评估方法多关注通用任务,无法揭示模型在复杂科学领域中碎片化、不均衡的创造力表现,导致难以有效利用模型间的互补性。

核心思路:将模型能力的“锯齿状”分布视为一种结构化资源而非缺陷。通过构建SciAidanBench基准,量化模型在不同科学子领域和问题上的表现差异,进而通过集成学习策略(如知识池化和头脑风暴)实现模型能力的优势互补。

技术框架:该框架包含三个阶段:首先是基于SciAidanBench的基准测试,通过开放式科学问题评估模型生成想法的数量与质量;其次是多维度分析,对比通用与科学创造力、不同提示词及不同科学领域的表现;最后是集成优化,利用推理时计算(Inference-time compute)和模型集成技术,将多个模型的输出进行融合。

关键创新:首次系统性地将LLM的“锯齿状”能力分布与科学创造力关联,并提出将这种不均衡性转化为提升系统性能的策略。与传统追求单一模型全能化的思路不同,该方法强调通过集成不同模型的局部优势来构建更强的元系统。

关键设计:采用了基于“想法生成数量”作为创造力代理指标的评估方法。在集成阶段,设计了知识池化(Knowledge Pooling)机制,通过聚合多个模型在特定科学子领域的优势输出,有效克服了单一模型在特定领域表现不佳的短板。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验评估了30个模型变体,发现模型在科学创造力上存在显著的异质性:通用能力强的模型在科学任务上并不总是表现最优。通过构建元模型集成,研究证明了在特定科学任务中,集成策略能显著超越单一最强模型的性能,验证了利用模型间“锯齿状”能力差异进行互补的可行性与有效性。

🎯 应用场景

该研究在科研辅助、自动化实验室及创新驱动型研发中具有重要价值。通过集成不同模型的科学洞察,研究人员可以构建更高效的“AI科研助手”,在材料科学、生物医药等领域快速生成假设、筛选实验方案,从而加速科学发现的进程,降低创新门槛。

📄 摘要(原文)

As artificial intelligence advances, models are not improving uniformly. Instead, progress unfolds in a jagged fashion, with capabilities growing unevenly across tasks, domains, and model scales. In this work, we examine this dynamic jaggedness through the lens of scientific idea generation. We introduce SciAidanBench, a benchmark of open-ended scientific questions designed to measure the scientific creativity of large language models (LLMs). Given a scientific question, models are asked to generate as many unique and coherent ideas as possible, with the total number of valid responses serving as a proxy for creative potential. Evaluating 19 base models across 8 providers (30 total variants including reasoning versions), we find that jaggedness manifests both across models and within models. First, in a cross-task comparison between general and scientific creativity, improvements in general creativity do not translate uniformly to scientific creativity, revealing divergent capability profiles across models. Second, at the prompt level, stronger models do not improve uniformly; instead, they exhibit high variability, with bursts of creativity on some questions and limited performance on others. Third, at the domain level, individual models display uneven strengths across scientific subfields, reflecting fragmented internal capability profiles. Finally, we show that this jaggedness can be harnessed. We explore mechanisms of inference-time compute, knowledge pooling, and brainstorming to combine models effectively and construct meta-model ensembles that outperform any single model. Our results position jaggedness not as a limitation, but as a resource, a structural feature of AI progress that, when understood and leveraged, can amplify LLM-driven scientific creativity.