Reinforced Graph of Thoughts: RL-Driven Adaptive Prompting for LLMs

📄 arXiv: 2605.22195v1 📥 PDF

作者: Manuel Noah Riesen, Peter Alfred von Niederhäusern

分类: cs.LG

发布日期: 2026-05-21

备注: 26 pages (including appendix), 16 figures


💡 一句话要点

提出RGoT:利用强化学习自适应生成LLM的思维图,提升复杂问题求解能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 思维图 强化学习 自适应提示 问题求解

📋 核心要点

  1. 现有GoT方法依赖人工定义操作图,需要专家知识且缺乏对不同任务的适应性。
  2. RGoT通过强化学习自动生成操作图,根据任务复杂度自适应调整LLM的推理过程。
  3. 实验表明,RGoT能够在一定约束下自适应地构建操作图,提升问题求解能力。

📝 摘要(中文)

本文提出了一种名为Reinforced Graph of Thoughts (RGoT) 的自动化GoT提示范式,旨在解决大型语言模型(LLM)在复杂问题求解中对人工定义操作图的依赖。原始的GoT方法需要人工预先定义操作图,这要求对问题解决方案有深入的了解,且静态图缺乏适应性。RGoT利用强化学习(RL)从人工定义的集合中自适应地生成操作图。实验结果表明,在特定约束下,RGoT能够根据任务的复杂性自适应地构建操作图。

🔬 方法详解

问题定义:论文旨在解决Graph of Thoughts (GoT) 提示方法中操作图需要人工预定义的问题。人工定义的操作图缺乏灵活性和适应性,难以应对不同复杂度的任务,并且需要领域专家知识,限制了GoT的广泛应用。

核心思路:论文的核心思路是利用强化学习(RL)来自动生成操作图。通过将操作图的构建过程建模为一个马尔可夫决策过程(MDP),RL智能体可以学习根据当前状态(例如,问题描述、已执行的思维步骤)选择合适的操作,从而动态地构建操作图。这种方法能够使LLM的推理过程更加灵活和自适应。

技术框架:RGoT的技术框架主要包括以下几个模块:1) 环境:定义了LLM的当前状态,包括问题描述、已生成的思维步骤等;2) 动作空间:定义了可供选择的操作集合,例如,生成新的思维、评估当前思维、合并思维等;3) 奖励函数:用于评估当前操作的优劣,例如,根据最终答案的正确性或中间步骤的合理性进行奖励;4) RL智能体:负责根据当前状态选择合适的动作,并根据奖励信号进行学习。整个流程是一个迭代过程,RL智能体不断与环境交互,学习最优的操作图生成策略。

关键创新:RGoT最重要的创新点在于将强化学习引入到GoT框架中,实现了操作图的自动生成。与传统的手工设计相比,RGoT能够根据任务的复杂度和LLM的推理状态自适应地调整操作图,从而提高问题求解的效率和准确性。

关键设计:RGoT的关键设计包括:1) 状态表示:如何有效地表示LLM的当前状态,以便RL智能体能够做出正确的决策;2) 动作空间的设计:如何定义合适的操作集合,以覆盖LLM推理过程中的各种可能性;3) 奖励函数的设计:如何设计有效的奖励函数,以引导RL智能体学习到最优的操作图生成策略。论文中可能还涉及一些超参数的调整,例如,RL算法的学习率、折扣因子等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文实验结果表明,RGoT能够在特定约束下自适应地构建操作图,并且在某些任务上取得了比人工设计的GoT更好的性能。具体的性能数据和对比基线(例如,人工设计的GoT、其他提示方法)以及提升幅度需要在论文中查找。

🎯 应用场景

RGoT具有广泛的应用前景,可应用于需要复杂推理和决策的领域,如数学问题求解、代码生成、知识图谱推理等。通过自动生成操作图,RGoT可以降低对领域专家的依赖,提高LLM在复杂任务中的表现,并有望推动LLM在更广泛的实际场景中的应用。

📄 摘要(原文)

Graph of Thoughts (GoT), a generalized form of recent prompting paradigms for large language models (LLMs), has been shown to be useful for elaborate problem solving. By executing a graph of operations, thoughts of the LLM are structured as an arbitrary graph, forming the actual graph of thoughts. Originally, the graph of operations is defined manually, which requires in-depth knowledge about the solution of the problem to solve. Such a static graph of operations is rigid and therefore lacks adaptability. We propose Reinforced Graph of Thoughts (RGoT), an automated approach to the GoT prompting paradigm that leverages reinforcement learning (RL) to adaptively generate a graph of operations from a human-defined set. Results indicate that, under certain constraints, it is possible to construct graphs of operations adaptively to the task's complexity in an automated way.