Beyond One Path: Evaluating and Enhancing Divergent Thinking in Interactive LLM Agents
作者: Jihyeong Park, Ingeol Baek, Jeonghyun Park, Hwanhee Lee
分类: cs.CL
发布日期: 2026-05-27
备注: 28 pages, 16 figures, 19 tables
💡 一句话要点
提出MUTATE基准与ReDNA框架,提升交互式LLM Agent的发散性思维能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 发散性思维 大型语言模型 交互式Agent 创造力评估 基准测试
📋 核心要点
- 现有LLM评估忽略了Agent在交互过程中的发散性思维,无法有效衡量其创造力。
- ReDNA框架分离了发散候选生成和收敛约束选择,从而克服了Agent的行动固定问题。
- 实验表明ReDNA在MUTATE基准上显著优于现有方法,并能泛化到其他创造性任务中。
📝 摘要(中文)
发散性思维是创造力的核心维度,但现有对大型语言模型(LLM)的评估通常将其视为单轮文本生成,忽略了Agent在迭代交互中的推理过程。为了解决这个问题,我们提出了MUTATE,一个交互式基准,旨在评估Agent在两个层面的发散性思维:路径层面,Agent发现通往同一目标的多个替代路径;动作层面,单个动作需要非典型的、机制转换的物体使用。与仅关注成功的评估不同,MUTATE同时评估已完成的路径和偏离路径的尝试,捕捉传统成功率所忽略的发散性推理。我们使用前沿LLM进行的实验揭示了现有框架的结构性盲点:当暴露于直接的收敛压力时,它们倾向于陷入即时行动固定,无法提高行动层面的发散性。为了克服这个问题,我们提出了ReDNA,它将无约束的发散候选生成与收敛约束选择分开。ReDNA在两个发散层面都显著优于先前的方法,并有效地推广到外部创造力环境。我们还证实,它的成功源于对弹性发散推理的质量提升,而不是简单的环境探索。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)在交互式环境中进行创造性任务时,缺乏有效的评估方法来衡量其发散性思维能力。传统的评估方法通常只关注最终结果的成功与否,而忽略了Agent在探索不同路径和尝试不同动作时的推理过程。此外,当Agent面临收敛压力时,容易陷入行动固定,无法产生多样化的解决方案。
核心思路:论文的核心思路是将发散性思维的评估分解为路径层面和动作层面,并设计相应的指标来衡量Agent在这两个层面的表现。同时,为了克服Agent的行动固定问题,论文提出了ReDNA框架,该框架将无约束的发散候选生成与收敛约束选择分离,从而鼓励Agent探索更多可能性。
技术框架:ReDNA框架包含两个主要阶段:发散候选生成阶段和收敛约束选择阶段。在发散候选生成阶段,Agent在没有明确约束的情况下,尽可能多地生成不同的行动方案。在收敛约束选择阶段,Agent根据任务目标和环境约束,从生成的候选方案中选择最佳方案。这两个阶段的解耦允许Agent在探索阶段更加自由,避免过早陷入局部最优。
关键创新:ReDNA框架的关键创新在于将发散性思维过程分解为两个独立的阶段,并分别进行优化。这种解耦的设计允许Agent在探索阶段更加自由,避免过早陷入局部最优。此外,MUTATE基准的提出也为评估Agent的发散性思维能力提供了一个新的视角。
关键设计:ReDNA框架的具体实现细节取决于所使用的LLM和任务类型。例如,在发散候选生成阶段,可以使用不同的prompting策略来鼓励Agent生成更多样化的方案。在收敛约束选择阶段,可以使用不同的排序算法来选择最佳方案。论文中并未明确给出具体的参数设置、损失函数或网络结构,这些细节可能需要根据具体应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ReDNA框架在MUTATE基准上显著优于现有的方法,在路径层面和动作层面都取得了明显的提升。具体来说,ReDNA在两个发散层面上都优于基线模型,并且能够有效地推广到外部创造力环境。这表明ReDNA不仅能够提高Agent的发散性思维能力,还能够提高其泛化能力。
🎯 应用场景
该研究成果可应用于各种需要创造性解决问题的领域,如游戏设计、产品创新、科学发现等。通过提升LLM Agent的发散性思维能力,可以帮助人们更快地找到新的解决方案,并提高创新效率。未来,该研究还可以扩展到其他类型的Agent,如机器人和虚拟助手。
📄 摘要(原文)
Divergent thinking is a core dimension of creativity, yet existing evaluations of Large Language Models (LLMs) treat them as single-turn text generations, failing to capture how an agent reasons through iterative interaction. To address this, we introduce MUTATE, an interactive benchmark designed to evaluate agentic divergent thinking at two levels: path-level, where an agent discovers multiple alternative paths to the same goal, and action-level, where individual actions require non-typical, mechanism-shifting object uses. Unlike success-only evaluations, MUTATE scores both completed paths and off-path attempts, capturing divergent reasoning that conventional success rates discard. Our experiments with frontier LLMs reveal a structural blind spot in existing frameworks: when exposed to immediate convergence pressure, they tend to fall into immediate action fixation, failing to improve action-level divergence. To overcome this, we propose ReDNA, which separates unconstrained divergent candidate generation from convergent constraint selection. ReDNA significantly outperforms prior methods across both divergence levels and generalizes effectively to an external creativity environment. We also confirm its success stems from a qualitative enhancement of resilient divergent reasoning rather than simple environmental exploration.