QSIM: Mitigating Overestimation in Multi-Agent Reinforcement Learning via Action Similarity Weighted Q-Learning

📄 arXiv: 2602.22786v1 📥 PDF

作者: Yuanjun Li, Bin Zhang, Hao Chen, Zhouyang Jiang, Dapeng Li, Zhiwei Xu

分类: cs.MA, cs.AI, cs.LG

发布日期: 2026-02-26

备注: 19 pages, 15 figures, 7tables. Accepted to the 36th International Conference on Automated Planning and Scheduling (ICAPS 2026)

🔗 代码/项目: GITHUB


💡 一句话要点

QSIM:通过动作相似性加权Q学习缓解多智能体强化学习中的过度估计

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 值分解 Q值过度估计 动作相似性 时序差分学习

📋 核心要点

  1. 多智能体强化学习中,值分解方法依赖最大算子进行TD目标计算,导致Q值过度估计,尤其在联合动作空间大时问题更严重。
  2. QSIM通过动作相似性加权Q学习重建TD目标,在近贪婪联合动作空间上形成相似性加权期望,平滑目标值。
  3. 实验表明,QSIM能与多种值分解方法集成,提升性能和稳定性,并有效缓解多智能体强化学习中的值过度估计问题。

📝 摘要(中文)

值分解(VD)方法在合作多智能体强化学习(MARL)中取得了显著成功。然而,它们对最大算子在时序差分(TD)目标计算中的依赖导致了系统性的Q值过度估计。由于联合动作空间的组合爆炸,这个问题在MARL中尤为严重,这通常会导致不稳定的学习和次优策略。为了解决这个问题,我们提出了QSIM,一个相似性加权Q学习框架,它使用动作相似性重建TD目标。QSIM不是直接使用贪婪联合动作,而是在结构化的近贪婪联合动作空间上形成一个相似性加权期望。这种公式允许目标整合来自不同但行为相关的动作的Q值,同时对那些与贪婪选择更相似的动作赋予更大的影响。通过使用结构相关的替代方案平滑目标,QSIM有效地缓解了过度估计并提高了学习稳定性。大量实验表明,QSIM可以与各种VD方法无缝集成,与原始算法相比,始终产生卓越的性能和稳定性。此外,经验分析证实QSIM显著缓解了MARL中的系统性值过度估计。

🔬 方法详解

问题定义:多智能体强化学习(MARL)中,值分解方法依赖于最大算子计算时序差分(TD)目标,这会导致Q值被系统性地高估。尤其是在联合动作空间呈组合爆炸式增长时,这种高估会更加严重,导致学习过程不稳定,最终获得的策略也可能是次优的。现有方法难以有效解决这个问题,阻碍了MARL的进一步发展。

核心思路:QSIM的核心思路是利用动作之间的相似性来构建更准确的TD目标。它不再直接使用贪婪策略选择的动作来更新Q值,而是考虑与贪婪动作相似的其他动作,并根据相似度赋予不同的权重。通过这种方式,QSIM能够平滑TD目标,从而缓解Q值的高估问题,提高学习的稳定性和策略的质量。

技术框架:QSIM可以无缝集成到现有的值分解方法中。其主要流程如下:1. 智能体根据当前策略选择动作;2. 计算所有智能体联合动作的Q值;3. 根据动作相似性构建近贪婪联合动作空间;4. 计算该空间内动作的相似性权重;5. 使用相似性加权的Q值期望来更新Q函数。

关键创新:QSIM最重要的创新在于引入了动作相似性来构建TD目标。与传统方法直接使用贪婪动作不同,QSIM考虑了与贪婪动作相似的其他动作,并根据相似度赋予不同的权重。这种方法能够有效地平滑TD目标,从而缓解Q值的高估问题。这是与现有方法的本质区别。

关键设计:QSIM的关键设计包括:1. 动作相似性度量:如何定义和计算动作之间的相似性是关键。论文中可能使用了某种距离度量或嵌入表示来衡量动作的相似程度。2. 近贪婪联合动作空间的构建:如何有效地构建包含与贪婪动作相似的动作的空间,需要在探索和利用之间进行权衡。3. 相似性权重计算:如何根据动作相似性来确定权重,可能使用了softmax或其他归一化方法。具体的损失函数和网络结构取决于所集成的具体值分解方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,QSIM可以与多种值分解方法(VD)无缝集成,并在各种合作多智能体环境中显著提升性能和稳定性。相较于原始算法,QSIM在多个基准测试中取得了更优的平均回报,并且收敛速度更快。经验分析也证实,QSIM能够有效缓解MARL中系统性的值过度估计问题,从而验证了其有效性。

🎯 应用场景

QSIM方法可应用于各种合作多智能体强化学习场景,例如机器人协同控制、交通流量优化、资源分配、以及电子竞技中的团队策略制定等。通过缓解Q值高估问题,QSIM能够提高学习效率和策略质量,从而在实际应用中获得更好的性能和更稳定的表现。该研究对于推动多智能体系统的智能化和自动化具有重要意义。

📄 摘要(原文)

Value decomposition (VD) methods have achieved remarkable success in cooperative multi-agent reinforcement learning (MARL). However, their reliance on the max operator for temporal-difference (TD) target calculation leads to systematic Q-value overestimation. This issue is particularly severe in MARL due to the combinatorial explosion of the joint action space, which often results in unstable learning and suboptimal policies. To address this problem, we propose QSIM, a similarity weighted Q-learning framework that reconstructs the TD target using action similarity. Instead of using the greedy joint action directly, QSIM forms a similarity weighted expectation over a structured near-greedy joint action space. This formulation allows the target to integrate Q-values from diverse yet behaviorally related actions while assigning greater influence to those that are more similar to the greedy choice. By smoothing the target with structurally relevant alternatives, QSIM effectively mitigates overestimation and improves learning stability. Extensive experiments demonstrate that QSIM can be seamlessly integrated with various VD methods, consistently yielding superior performance and stability compared to the original algorithms. Furthermore, empirical analysis confirms that QSIM significantly mitigates the systematic value overestimation in MARL. Code is available at https://github.com/MaoMaoLYJ/pymarl-qsim.