Beyond the Answer: Decoding the Behavior of LLMs as Scientific Reasoners
作者: Rohan Pandey, Eric Ye, Michael Li
分类: cs.AI, cs.LG
发布日期: 2026-03-30
备注: Accepted at the Post-AGI Science and Society Workshop at ICLR 2026
💡 一句话要点
利用GEPA优化提示词,揭示LLM在科学推理中的行为模式
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 科学推理 提示词优化 遗传帕累托算法 模型可解释性
📋 核心要点
- 现有方法难以解释LLM在复杂科学推理任务中的行为模式,阻碍了模型的可解释性和安全性。
- 论文提出使用定制的遗传帕累托(GEPA)算法,系统地优化LLM在科学推理任务中的提示词。
- 实验表明,优化后的提示词揭示了LLM中特定于模型的“局部”逻辑,这些逻辑难以泛化。
📝 摘要(中文)
随着大型语言模型(LLMs)在复杂推理任务上表现出日益精湛的性能,当前的架构成为了前沿模型内部启发式方法的关键代理。刻画涌现的推理能力对于长期的可解释性和安全性至关重要。此外,理解提示如何调节这些过程至关重要,因为自然语言很可能成为与AGI系统交互的主要界面。在这项工作中,我们使用一种定制的遗传帕累托(GEPA)变体来系统地优化科学推理任务的提示,并分析提示如何影响推理行为。我们研究了GEPA优化提示中固有的结构模式和逻辑启发式,并评估了它们的迁移性和脆弱性。我们的研究结果表明,科学推理能力的提高通常对应于特定于模型的启发式方法,这些方法无法在系统间泛化,我们称之为“局部”逻辑。通过将提示优化作为模型可解释性的工具,我们认为,为LLM映射这些首选的推理结构是与超人智能有效协作的重要先决条件。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在科学推理任务中表现出的复杂行为难以解释的问题。现有方法缺乏对LLM内部推理机制的深入理解,使得我们难以预测和控制LLM的行为,尤其是在涉及安全性和可靠性的关键应用中。此外,如何有效地利用自然语言提示来引导LLM进行科学推理也是一个重要的挑战。
核心思路:论文的核心思路是将提示词优化视为一种模型可解释性的工具。通过系统地优化提示词,研究者可以揭示LLM在进行科学推理时所偏好的推理结构和逻辑启发式。这种方法允许研究者观察LLM如何响应不同的提示,从而推断出其内部的推理过程。
技术框架:论文采用了一种定制的遗传帕累托(GEPA)算法来优化提示词。GEPA是一种进化算法,它通过模拟自然选择的过程来搜索最优解。在这个框架中,每个提示词都被视为一个“个体”,GEPA通过交叉、变异和选择等操作来不断改进提示词的质量。该框架包含以下主要阶段:1) 初始化提示词种群;2) 使用LLM评估每个提示词的性能;3) 根据性能指标选择优秀的提示词;4) 通过交叉和变异生成新的提示词;5) 重复步骤2-4,直到达到收敛条件。
关键创新:论文最重要的技术创新在于将GEPA应用于提示词优化,并将其作为一种模型可解释性的手段。与传统的提示词工程方法不同,该方法不是手动设计提示词,而是通过算法自动搜索最优提示词。此外,论文还提出了“局部”逻辑的概念,即LLM在进行科学推理时所依赖的特定于模型的启发式方法。
关键设计:GEPA算法的关键设计包括:1) 适应度函数:用于评估提示词的性能,通常基于LLM在科学推理任务上的准确率或得分;2) 交叉算子:用于将两个提示词的部分内容进行交换,生成新的提示词;3) 变异算子:用于随机修改提示词的内容,引入新的可能性;4) 选择策略:用于选择优秀的提示词,通常采用帕累托最优选择策略,即选择在多个目标上都表现良好的提示词。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过GEPA优化后的提示词能够显著提升LLM在科学推理任务上的性能。然而,这些优化后的提示词往往依赖于特定模型的“局部”逻辑,难以泛化到其他LLM上。这表明不同LLM的推理机制存在差异,需要针对不同模型进行定制化的提示词优化。
🎯 应用场景
该研究成果可应用于提升LLM在科学研究、医疗诊断、金融分析等领域的推理能力。通过理解LLM的推理模式,可以更好地设计提示词,引导LLM给出更准确、更可靠的答案。此外,该研究还有助于提高LLM的可解释性和安全性,降低其在关键应用中产生错误或偏差的风险。
📄 摘要(原文)
As Large Language Models (LLMs) achieve increasingly sophisticated performance on complex reasoning tasks, current architectures serve as critical proxies for the internal heuristics of frontier models. Characterizing emergent reasoning is vital for long-term interpretability and safety. Furthermore, understanding how prompting modulates these processes is essential, as natural language will likely be the primary interface for interacting with AGI systems. In this work, we use a custom variant of Genetic Pareto (GEPA) to systematically optimize prompts for scientific reasoning tasks, and analyze how prompting can affect reasoning behavior. We investigate the structural patterns and logical heuristics inherent in GEPA-optimized prompts, and evaluate their transferability and brittleness. Our findings reveal that gains in scientific reasoning often correspond to model-specific heuristics that fail to generalize across systems, which we call "local" logic. By framing prompt optimization as a tool for model interpretability, we argue that mapping these preferred reasoning structures for LLMs is an important prerequisite for effectively collaborating with superhuman intelligence.