CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge

作者: Mete Ismayilzada, Renqing Cuomao, Daniil Yurshevich, Anna Sotnikova, Lonneke van der Plas, Antoine Bosselut

分类: cs.CL, cs.AI

发布日期: 2026-04-07

💡 一句话要点

CresOWLve：提出基于真实世界知识的创造性问题解决基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 创造性问题解决 大语言模型 基准测试 真实世界知识 认知能力

📋 核心要点

现有LLM基准测试在评估创造性问题解决能力时，缺乏对多种认知能力综合运用的考察。
CresOWLve基准通过构建基于真实世界知识的谜题，来评估模型在实际场景中的创造性问题解决能力。
实验表明，LLM在CresOWLve基准上表现出显著的性能差距，尤其是在创造性问题上。

📝 摘要（中文）

创造性问题解决需要结合多种认知能力，包括逻辑推理、横向思维、类比和常识知识，以发现连接看似无关信息的洞见。然而，现有的大语言模型（LLM）基准测试大多只评估该过程的特定组成部分。此外，许多面向创造力的基准依赖于人为构建的脑筋急转弯或虚构场景，无法反映现实世界中创造性问题解决的发生方式。为了解决这一差距，我们引入了CresOWLve，这是一个使用基于真实世界知识的谜题来评估创造性问题解决的基准。CresOWLve中的问题需要运用多种创造性思维策略，从不同领域检索事实，并创造性地将它们结合起来以得出解决方案。通过评估几种前沿的非思维和思维LLM，我们表明CresOWLve仍然具有很高的挑战性。我们的分析揭示了一个一致的性能差距：模型在事实性问题上的表现明显优于创造性问题（下降高达-17%）。虽然模型通常可以检索到相关的知识，但它们难以形成整合这些信息并得出正确答案所需的非显而易见的创造性联系。

🔬 方法详解

问题定义：现有的大语言模型在创造性问题解决方面表现不足，尤其是在需要结合多种认知能力和真实世界知识的场景下。现有的基准测试要么侧重于特定认知能力，要么依赖于人为构建的场景，无法真实反映现实世界中的创造性问题解决过程。因此，需要一个更具挑战性和现实性的基准来评估模型在复杂场景下的创造性问题解决能力。

核心思路：CresOWLve的核心思路是构建一个基于真实世界知识的谜题集合，这些谜题需要模型运用多种创造性思维策略，从不同领域检索相关事实，并将这些事实创造性地结合起来以得出解决方案。这种设计旨在模拟现实世界中创造性问题解决的复杂性和挑战性，从而更全面地评估模型的创造性能力。

技术框架：CresOWLve基准测试包含一系列需要创造性解决的问题。评估过程包括：1) 向模型呈现问题；2) 模型生成答案；3) 使用预定义的评估指标评估答案的正确性和创造性。该框架允许研究人员系统地评估不同模型在创造性问题解决方面的表现，并比较它们的优缺点。

关键创新：CresOWLve的关键创新在于其问题设计的真实性和复杂性。与以往依赖于人为构建的脑筋急转弯或虚构场景的基准不同，CresOWLve的问题基于真实世界知识，需要模型进行更深入的推理和创造性联想。此外，CresOWLve强调对多种认知能力的综合运用，例如逻辑推理、横向思维和类比，这使得它能够更全面地评估模型的创造性问题解决能力。

关键设计：CresOWLve的问题设计需要仔细选择相关的事实领域和创造性思维策略。每个问题都经过精心设计，以确保它需要模型进行非显而易见的创造性联系，并且答案可以通过检索和整合相关知识来获得。此外，CresOWLve还定义了一套评估指标，用于衡量答案的正确性和创造性，从而确保评估结果的可靠性和有效性。

📊 实验亮点

实验结果表明，即使是前沿的LLM在CresOWLve基准上仍然面临挑战。模型在事实性问题上的表现明显优于创造性问题，性能下降高达-17%。这表明模型虽然可以检索到相关的知识，但难以形成整合这些信息并得出正确答案所需的非显而易见的创造性联系。这些结果突显了当前LLM在创造性问题解决方面的局限性，并为未来的研究方向提供了指导。

🎯 应用场景

CresOWLve基准的潜在应用领域包括：评估和改进大语言模型的创造性问题解决能力，开发更智能的AI助手，以及在教育领域中培养学生的创造性思维。该基准可以帮助研究人员更好地理解创造性问题解决的机制，并开发出更有效的算法和模型，从而推动人工智能技术的发展。

📄 摘要（原文）

Creative problem-solving requires combining multiple cognitive abilities, including logical reasoning, lateral thinking, analogy-making, and commonsense knowledge, to discover insights that connect seemingly unrelated pieces of information. However, most existing benchmarks for large language models (LLMs) evaluate only specific components of this process. Moreover, many creativity-oriented benchmarks rely on artificially constructed brainteasers or contrived scenarios that do not reflect how creative problem-solving occurs in real-world settings. To address this gap, we introduce CresOWLve, a benchmark for evaluating creative problem-solving using puzzles grounded in real-world knowledge. Problems in CresOWLve require employing multiple creative thinking strategies, retrieving facts from diverse domains, and creatively combining them to arrive at a solution. Evaluating several frontier non-thinking and thinking LLMs, we show that CresOWLve remains highly challenging. Our analysis reveals a consistent performance gap: models perform substantially better on factual questions than on creative ones (up to a -17% drop). While models can often retrieve the relevant knowledge, they struggle to form the non-obvious creative connections required to integrate this information and arrive at the correct answer.

CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理