Adaptive Robust Estimator for Multi-Agent Reinforcement Learning
作者: Zhongyi Li, Wan Tian, Jingyu Chen, Kangyao Huang, Huiming Zhang, Hui Yang, Tao Ren, Jinyang Jiang, Yijie Peng, Yikun Ban, Fuzhen Zhuang
分类: cs.AI
发布日期: 2026-03-23
💡 一句话要点
提出DACR和ARE框架,解决多智能体强化学习中的信用分配和噪声奖励问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体强化学习 协同推理 信用分配 鲁棒估计 噪声奖励 双智能体 策略优化
📋 核心要点
- 多智能体协作增强了大语言模型的推理能力,但交互层面的模糊性导致信用分配困难。
- 论文提出DACR分解推理过程,显式归因智能体的贡献,并使用ARE进行鲁棒的经验均值估计。
- 实验表明,即使在噪声奖励下,该方法在数学推理和具身智能任务中均优于基线方法。
📝 摘要(中文)
本文提出了一种鲁棒的多智能体强化学习框架,用于协同推理,该框架包含两个组成部分:双智能体回答-评论-重写(DACR)和自适应鲁棒估计器(ARE)。DACR将推理分解为一个结构化的三阶段流程:回答、评论和重写,同时能够显式地将每个智能体的边际贡献归因于其伙伴的表现。ARE在多智能体策略优化期间提供批次经验均值的鲁棒估计。在数学推理和具身智能基准测试中,即使在噪声奖励下,我们的方法在同构和异构环境中始终优于基线。这些结果表明,该方法对奖励噪声具有更强的鲁棒性,以及更稳定的训练动态,有效地防止了由噪声奖励信号引起的优化失败。
🔬 方法详解
问题定义:多智能体强化学习在协同推理中面临两个主要问题:一是交互层面的模糊性,使得难以确定每个智能体对最终结果的贡献,即信用分配问题;二是策略优化容易受到重尾和噪声奖励的影响,导致优势函数估计偏差,进而引发训练不稳定甚至发散。现有方法难以有效解决这些问题。
核心思路:论文的核心思路是通过结构化智能体间的交互流程,明确每个智能体的角色和贡献,从而解决信用分配问题。同时,利用鲁棒统计方法,降低噪声奖励对策略优化的影响,提升训练的稳定性和可靠性。
技术框架:整体框架包含两个主要模块:Dual-Agent Answer-Critique-Rewrite (DACR) 和 Adaptive Robust Estimator (ARE)。DACR将推理过程分解为回答、评论和重写三个阶段,两个智能体分别负责不同的阶段,从而明确了每个智能体的角色。ARE则用于在策略优化过程中,对批次经验均值进行鲁棒估计,降低噪声的影响。
关键创新:最重要的技术创新点在于DACR和ARE的结合。DACR通过结构化交互流程,解决了信用分配问题,而ARE则通过鲁棒估计,解决了噪声奖励问题。与现有方法相比,该方法能够更有效地处理多智能体协同推理中的挑战。
关键设计:DACR的具体实现方式是,一个智能体负责生成答案,另一个智能体负责评论答案,然后第一个智能体根据评论重写答案。ARE的具体实现方式是,使用一种自适应的鲁棒估计器,根据数据的分布动态调整估计参数,从而降低噪声的影响。具体的损失函数和网络结构细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使在存在噪声奖励的情况下,该方法在数学推理和具身智能基准测试中均优于基线方法。具体性能数据和提升幅度在摘要中未给出,属于未知信息。但总体而言,该方法展现了更强的抗噪声能力和更稳定的训练动态。
🎯 应用场景
该研究成果可应用于需要多智能体协同完成复杂任务的场景,例如:多机器人协同搜索救援、多智能体协同进行复杂问题求解、以及多智能体辅助的大语言模型推理等。该方法能够提升多智能体系统的鲁棒性和稳定性,使其在实际应用中更可靠。
📄 摘要(原文)
Multi-agent collaboration has emerged as a powerful paradigm for enhancing the reasoning capabilities of large language models, yet it suffers from interaction-level ambiguity that blurs generation, critique, and revision, making credit assignment across agents difficult. Moreover, policy optimization in this setting is vulnerable to heavy-tailed and noisy rewards, which can bias advantage estimation and trigger unstable or even divergent training. To address both issues, we propose a robust multi-agent reinforcement learning framework for collaborative reasoning, consisting of two components: Dual-Agent Answer-Critique-Rewrite (DACR) and an Adaptive Robust Estimator (ARE). DACR decomposes reasoning into a structured three-stage pipeline: answer, critique, and rewrite, while enabling explicit attribution of each agent's marginal contribution to its partner's performance. ARE provides robust estimation of batch experience means during multi-agent policy optimization. Across mathematical reasoning and embodied intelligence benchmarks, even under noisy rewards, our method consistently outperforms the baseline in both homogeneous and heterogeneous settings. These results indicate stronger robustness to reward noise and more stable training dynamics, effectively preventing optimization failures caused by noisy reward signals.