ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning

作者: Ziyu Wan, Yunxiang Li, Xiaoyu Wen, Yan Song, Hanjing Wang, Linyi Yang, Mark Schmidt, Jun Wang, Weinan Zhang, Shuyue Hu, Ying Wen

分类: cs.AI, cs.CL, cs.LG, cs.MA

发布日期: 2025-03-12 (更新: 2025-05-27)

🔗 代码/项目: GITHUB

💡 一句话要点

提出ReMA：利用多智能体强化学习提升LLM的元认知能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 元认知 多智能体强化学习 推理 强化学习

📋 核心要点

现有单智能体方法在获取元认知能力方面缺乏专门设计，导致效果不佳，难以有效提升LLM的推理能力。
ReMA框架利用多智能体强化学习，将推理过程分解为元认知智能体和推理智能体，分别负责战略规划和具体执行。
实验结果表明，ReMA在复杂推理任务上优于单智能体强化学习基线，并在多轮交互设置中表现出更高的效率。

📝 摘要（中文）

本文提出了一种名为强化元认知智能体（ReMA）的新框架，该框架利用多智能体强化学习（MARL）来激发大型语言模型（LLM）的元认知行为，鼓励LLM进行关于思考的思考。ReMA将推理过程解耦为两个层级智能体：一个负责生成战略监督和计划的高级元认知智能体，以及一个负责详细执行的低级推理智能体。通过具有对齐目标的迭代强化学习，这些智能体探索和学习协作，从而提高泛化性和鲁棒性。单轮实验的经验结果表明，ReMA在复杂的推理任务上优于单智能体强化学习基线，包括竞争级别的数学基准和LLM-as-a-Judge基准。此外，我们将ReMA进一步扩展到多轮交互设置，利用回合级别的比率和参数共享来提高效率。全面的消融研究进一步说明了每个不同智能体的演变动态，为元认知推理过程如何增强LLM的推理能力提供了宝贵的见解。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在复杂推理任务中，由于缺乏有效的元认知能力而导致的性能瓶颈问题。现有的单智能体方法在引导LLM进行自我监控、评估和控制推理过程方面存在不足，无法充分激发LLM的推理潜力。

核心思路：论文的核心思路是引入多智能体强化学习（MARL），将LLM的推理过程分解为两个相互协作的智能体：一个负责高层次战略规划的元认知智能体，以及一个负责低层次具体执行的推理智能体。通过让这两个智能体在强化学习环境中进行交互和学习，从而使LLM能够更好地进行元认知，提升推理能力。

技术框架：ReMA框架包含两个主要模块：元认知智能体和推理智能体。元认知智能体负责生成战略性计划，指导推理智能体执行具体步骤。推理智能体则根据元认知智能体的指令，执行推理过程并产生结果。这两个智能体通过共享奖励信号进行协作，并使用强化学习算法进行训练。在多轮交互设置中，ReMA还引入了回合级别的比率和参数共享机制，以提高训练效率。

关键创新：ReMA的关键创新在于利用多智能体强化学习来模拟和学习元认知过程。与传统的单智能体方法相比，ReMA能够更有效地引导LLM进行自我监控、评估和控制，从而提高推理能力。此外，ReMA还引入了回合级别的比率和参数共享机制，以提高多轮交互设置中的训练效率。

关键设计：ReMA使用Transformer架构作为元认知智能体和推理智能体的基础模型。奖励函数的设计至关重要，需要能够有效地引导两个智能体进行协作，并鼓励LLM进行正确的推理。在多轮交互设置中，回合级别的比率用于控制元认知智能体和推理智能体之间的交互频率，参数共享则用于减少模型参数量，提高训练效率。具体的强化学习算法选择未知，论文中可能使用了某种Actor-Critic算法或类似的变体。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ReMA在单轮实验中优于单智能体强化学习基线，在竞争级别的数学基准和LLM-as-a-Judge基准上均取得了显著提升。此外，ReMA在多轮交互设置中表现出更高的效率，证明了其在复杂推理任务中的有效性。具体的性能提升数据未知，需要在论文中查找。

🎯 应用场景

ReMA框架具有广泛的应用前景，可用于提升LLM在各种复杂推理任务中的性能，例如数学问题求解、逻辑推理、代码生成等。该研究成果有助于开发更智能、更可靠的LLM，并推动人工智能技术在教育、科研、金融等领域的应用。

📄 摘要（原文）

Recent research on Reasoning of Large Language Models (LLMs) has sought to further enhance their performance by integrating meta-thinking -- enabling models to monitor, evaluate, and control their reasoning processes for more adaptive and effective problem-solving. However, current single-agent work lacks a specialized design for acquiring meta-thinking, resulting in low efficacy. To address this challenge, we introduce Reinforced Meta-thinking Agents (ReMA), a novel framework that leverages Multi-Agent Reinforcement Learning (MARL) to elicit meta-thinking behaviors, encouraging LLMs to think about thinking. ReMA decouples the reasoning process into two hierarchical agents: a high-level meta-thinking agent responsible for generating strategic oversight and plans, and a low-level reasoning agent for detailed executions. Through iterative reinforcement learning with aligned objectives, these agents explore and learn collaboration, leading to improved generalization and robustness. Empirical results from single-turn experiments demonstrate that ReMA outperforms single-agent RL baselines on complex reasoning tasks, including competitive-level mathematical benchmarks and LLM-as-a-Judge benchmarks. Additionally, we further extend ReMA to multi-turn interaction settings, leveraging turn-level ratio and parameter sharing to improve efficiency. Comprehensive ablation studies further illustrate the evolving dynamics of each distinct agent, providing valuable insights into how the meta-thinking reasoning process enhances the reasoning capabilities of LLMs. Our code can be found in https://github.com/ziyuwan/ReMA-public

ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理