TRACER: Turn-level Regret Matching with Inner Reinforcement Credit for Cooperative Multi-LLM Reasoning

作者: Chusen Li, Zhou Liu, Shuigeng Zhou, Wentao Zhang

分类: cs.AI

发布日期: 2026-05-27

备注: 25 pages, 3 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出TRACER框架，解决多智能体LLM协同推理中的奖励稀疏和策略震荡问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 协同推理 强化学习 后悔匹配 大型语言模型 GSPO 奖励塑造

📋 核心要点

现有方法难以结合强化学习和多智能体提示，导致奖励稀疏和协作策略僵化。
TRACER通过turn-level的后悔匹配和生成信用分配，实现智能体协作策略的优化。
实验表明，TRACER在多个数据集上提升了推理准确性，并降低了训练成本。

📝 摘要（中文）

大型语言模型越来越多地依赖强化学习或多智能体提示来改进推理能力，但这两者难以结合。直接将单智能体强化学习应用于多轮多智能体系统面临困境：奖励稀疏、角色级搭便车和过度训练开销；智能体仅模仿以进行协作；固定协作协议陷入局部最优震荡。我们提出了TRACER，一个用于协同多LLM推理的turn-level强化学习框架。TRACER将协作决策分为控制器-后悔层（controller-regret layer），控制器通过后悔匹配学习智能体是否应该在当前轮次发言或跳过，以及生成-信用层（generation-credit layer），该层使用角色特定的GSPO奖励优化提议者和审查者的发言。这种设计在动作模式和生成的发言层面上分配信用，从而避免搭便车和奖励稀疏。我们只扩展了控制器做出的选择，从而大大降低了训练的计算成本。此外，智能体在学习何时发言和说什么时获得协作能力。最后，通过巧妙地设计二元动作，我们将为有限动作空间建立的经典博弈论扩展到深度学习，从而实现数学上严格的收敛。我们在GSM8K训练集上训练所有本地RL风格的方法，并在held-out GSM8K、MATH500和GPQA-Diamond上进行评估，以衡量领域内准确性、跨基准泛化、推理成本和校正保留行为。由此产生的框架提供了一个紧凑且可复现的测试平台，用于研究超越固定辩论、投票或聚合协议的学习协作策略。

🔬 方法详解

问题定义：现有方法在多智能体LLM协同推理中，直接应用单智能体强化学习面临奖励稀疏、角色级搭便车以及训练开销过大的问题。此外，智能体之间的协作方式往往是固定的，例如预设的辩论或投票流程，缺乏灵活性，容易陷入局部最优，无法充分发挥LLM的推理能力。

核心思路：TRACER的核心思路是将协作决策分解为两个层次：控制器-后悔层和生成-信用层。控制器-后悔层负责决定每个智能体在当前轮次是否应该发言，通过后悔匹配算法学习最优的发言策略。生成-信用层则负责优化智能体的具体发言内容，使用角色特定的GSPO奖励来鼓励高质量的生成。这种分层设计能够更有效地分配奖励，避免搭便车现象，并允许智能体学习更灵活的协作策略。

技术框架：TRACER框架包含两个主要模块：控制器-后悔层和生成-信用层。控制器-后悔层使用后悔匹配算法来学习每个智能体在每个turn的最佳动作（发言或跳过）。生成-信用层则使用GSPO（Generalized Sample Policy Optimization）算法来优化智能体的发言内容，GSPO奖励是角色特定的，例如，提议者和审查者有不同的奖励函数。整个框架通过turn-level的迭代过程，不断优化智能体的协作策略和生成能力。

关键创新：TRACER的关键创新在于将经典的博弈论中的后悔匹配算法引入到深度学习中，用于优化多智能体的协作策略。通过巧妙地设计二元动作（发言或跳过），TRACER将有限动作空间上的博弈论结果扩展到了连续的深度学习环境中，从而保证了算法的收敛性。此外，TRACER还提出了生成-信用层的概念，通过角色特定的GSPO奖励来优化智能体的发言内容，从而提高了推理的准确性。

关键设计：控制器-后悔层使用后悔匹配算法来更新每个智能体的策略，该算法基于过去的回报来调整每个动作的概率。生成-信用层使用GSPO算法来优化智能体的发言内容，GSPO奖励函数是角色特定的，例如，提议者的奖励可能与审查者的奖励不同。框架使用二元动作（发言或跳过）来简化控制器的决策空间，并保证算法的收敛性。具体的参数设置和网络结构在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

TRACER在GSM8K、MATH500和GPQA-Diamond等数据集上进行了评估，结果表明，TRACER在推理准确性方面优于现有的方法。例如，在GSM8K数据集上，TRACER取得了显著的性能提升。此外，TRACER还降低了训练的计算成本，并表现出良好的跨基准泛化能力。

🎯 应用场景

TRACER框架可应用于需要多智能体协同推理的各种场景，例如：复杂问题求解、代码生成、医疗诊断等。通过学习更有效的协作策略，TRACER可以提高多智能体系统的整体性能，并降低人工干预的需求。该研究为开发更智能、更自主的协同式AI系统奠定了基础。

📄 摘要（原文）

Large language models increasingly rely on either reinforcement learning or multi-agent prompting to improve reasoning, yet these two paradigms remain difficult to combine. Directly applying single-agent reinforcement learning to multi-turn multi-agent systems faces following dilemmas: i) Sparse rewards, role-level free-riding and excessive training overhead. ii) Agents only imitate to collaborate. iii) Fixed collaboration protocol falls into oscillating local optimum. We introduce TRACER, a turn-level reinforcement framework for cooperative multi-LLM reasoning. TRACER separates collaborative decision making into a controller-regret layer, where controllers learn whether the agents should speak or skip the current round through regret matching, and a generation-credit layer, which optimizes proposer and reviewer utterances with role-specific GSPO rewards. This design i) assigns credit at the level of both action modes and generated utterances, thus avoiding free-riding and sparse rewards. We only expand the choices made by the controllers, thus greatly reducing computational cost of training. Moreover, ii) agents acquire collaborative capability as they learn when to utter and what to speak. Finally, iii) by designing binary actions ingeniously, we extend classical game theory established for finite action spaces to deep learning, thus achieving mathematically rigorous convergence. We train all local RL-style methods on the GSM8K training split and evaluate on held-out GSM8K, MATH500, and GPQA-Diamond to measure in-domain accuracy, cross-benchmark generalization, inference cost, and correction-preservation behavior. The resulting framework provides a compact and reproducible testbed for studying learned collaboration policies beyond fixed debate, voting, or aggregation protocols. Code is available at https://github.com/Shark-Forest/TRACER.

TRACER: Turn-level Regret Matching with Inner Reinforcement Credit for Cooperative Multi-LLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理