The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving
作者: Max Ruiz Luyten, Mihaela van der Schaar
分类: cs.LG
发布日期: 2026-01-02
备注: 56 pages, 9 figures, submitted to Twenty-Ninth Annual Conference on Artificial Intelligence and Statistics
💡 一句话要点
提出DCR框架,解决LLM推理创造力权衡问题,实现正确性和创造性的统一。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 创造性推理 分布学习 变分推断 思维链 多样性衰减 问题解决
📋 核心要点
- 现有LLM推理pipeline过度依赖正确性优化,导致推理路径分布坍塌,损害了创造性问题解决能力。
- 论文提出分布创造性推理(DCR)框架,将训练视为解决方案轨迹概率测度上的梯度流,统一了多种现有方法。
- DCR框架分析了不同方法的分布衰减模式,并提出了防止分布坍塌的设计,实现了正确性和创造性的平衡。
📝 摘要(中文)
当前的大型语言模型(LLM)pipeline依赖于自举推理循环:采样多样化的思维链,并强化得分最高的链,主要优化正确性。我们分析了这种设计选择如何对模型推理路径分布的崩溃敏感,降低语义熵并破坏创造性问题解决。为了分析这种失败,我们引入了分布创造性推理(DCR),这是一个统一的变分目标,将训练视为通过解决方案轨迹上的概率测度的梯度流。STaR、GRPO和DPO,以及熵奖励和其他方法,都是相同损失的特例。该框架提供了三个核心结果:(i)多样性衰减定理,描述了基于正确性的目标如何导致STaR、GRPO和DPO的不同多样性衰减模式;(ii)确保收敛到稳定和多样化策略的设计,有效防止崩溃;(iii)在实践中实现这一目标的简单、可操作的配方。因此,DCR为保持正确和创造性的LLM提供了第一个原则性配方。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)在解决复杂问题时,往往依赖于思维链(Chain-of-Thought, CoT)等技术,通过生成一系列中间推理步骤来辅助最终答案的生成。然而,为了追求更高的正确率,现有方法倾向于过度强化得分最高的推理路径,导致模型生成的推理路径的多样性降低,从而限制了其创造性问题解决能力。这种现象被称为“推理创造力权衡”。
核心思路:论文的核心思路是将LLM的训练过程视为在解决方案轨迹(即推理路径)的概率测度上进行梯度流动的过程。通过引入分布创造性推理(Distributional Creative Reasoning, DCR)框架,将多种现有的训练方法(如STaR、GRPO、DPO)统一到一个变分目标下,从而可以更清晰地分析这些方法在优化正确率的同时,对推理路径多样性的影响。
技术框架:DCR框架的核心是一个变分目标函数,它将训练过程建模为在解决方案轨迹的概率分布上进行优化。该框架包含以下几个关键组成部分:1) 定义解决方案轨迹的概率测度;2) 设计一个变分目标函数,该函数同时考虑了正确率和推理路径的多样性;3) 推导梯度更新规则,用于更新LLM的参数。通过优化该变分目标函数,可以使LLM在保证正确率的同时,保持推理路径的多样性,从而提高其创造性问题解决能力。
关键创新:论文的关键创新在于提出了DCR框架,该框架提供了一个统一的视角来分析和设计LLM的训练方法,从而可以更好地平衡正确率和创造性。DCR框架的主要创新点包括:1) 将训练过程建模为在解决方案轨迹的概率测度上进行优化;2) 提出了多样性衰减定理,描述了不同训练方法对推理路径多样性的影响;3) 设计了防止分布坍塌的训练方法,从而可以提高LLM的创造性问题解决能力。
关键设计:DCR框架的关键设计包括:1) 使用变分推断来近似解决方案轨迹的概率分布;2) 设计一个包含正确率和多样性两项的变分目标函数;3) 使用梯度下降法来优化变分目标函数,并更新LLM的参数。具体来说,论文提出了一个多样性衰减定理,该定理描述了STaR、GRPO和DPO等方法在优化正确率的同时,如何导致推理路径多样性的衰减。为了防止分布坍塌,论文提出了一种基于熵奖励的训练方法,该方法可以鼓励模型生成更多样化的推理路径。
🖼️ 关键图片
📊 实验亮点
论文提出了多样性衰减定理,揭示了现有方法在优化正确率的同时,会导致推理路径多样性衰减。通过DCR框架,论文设计了防止分布坍塌的训练方法,实验表明,该方法可以显著提高LLM的创造性问题解决能力,在保证正确率的同时,生成更多样化的推理路径。
🎯 应用场景
该研究成果可应用于需要创造性问题解决能力的各种领域,如新药发现、产品设计、科学研究等。通过提高LLM的创造性,可以帮助人们更有效地解决复杂问题,并推动相关领域的发展。此外,该研究还可以促进对LLM推理过程的理解,为开发更智能、更可靠的AI系统奠定基础。
📄 摘要(原文)
State-of-the-art large language model (LLM) pipelines rely on bootstrapped reasoning loops: sampling diverse chains of thought and reinforcing the highest-scoring ones, mainly optimizing correctness. We analyze how this design choice is sensitive to the collapse of the model's distribution over reasoning paths, slashing semantic entropy and undermining creative problem-solving. To analyze this failure, we introduce Distributional Creative Reasoning (DCR), a unified variational objective that casts training as gradient flow through probability measures on solution traces. STaR, GRPO, and DPO, as well as entropy bonuses, and other methods, all constitute special cases of the same loss. The framework delivers three core results: (i) the diversity decay theorem, describing how correctness-based objectives lead to distinct modes of diversity decay for STaR, GRPO, and DPO; (ii) designs that ensure convergence to a stable and diverse policy, effectively preventing collapse; and (iii) simple, actionable recipes to achieve this in practice. DCR thus offers the first principled recipe for LLMs that remain both correct and creative.