GARL: Game-Theoretic Reinforcement Learning for Multi-Agent Strategic Prioritisation

📄 arXiv: 2606.05002v1 📥 PDF

作者: Yuxiao Ye, Yiwen Zhang, Huiyuan Xie, Yuqin Huang, Zhiyuan Liu

分类: cs.CL

发布日期: 2026-06-03


💡 一句话要点

提出GARL框架以解决多智能体战略优先级问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体系统 强化学习 博弈论 战略优先级 法律领域 资源分配 决策优化

📋 核心要点

  1. 现有的多智能体强化学习方法在奖励设计上往往缺乏与交互结构的紧密结合,导致性能受限。
  2. GARL框架通过将战略优先级问题形式化为两阶段博弈,优化智能体间的资源分配和最终排名过程。
  3. 实验结果显示,GARL在法律领域的核心问题排序上显著提升了性能,尤其是小型开源LLM的竞争力。

📝 摘要(中文)

基于大型语言模型的多智能体系统在战略决策任务中越来越常见,其性能不仅依赖于个体模型能力,还与智能体的交互和适应策略密切相关。多智能体强化学习可以优化这些交互策略,但其奖励设计往往任务特定且与交互结构关联较弱。为了解决这一问题,本文提出了GARL框架,将战略优先级形式化为一个两阶段博弈:竞争智能体首先在共享候选集上分配战略资源,随后高层仲裁者生成最终排名。通过将博弈论效用转化为角色特定的强化信号,GARL能够在结构化交互的指导下优化策略。实验证明,GARL在法律程序中的核心问题优先级排序上表现出色,使小型开源LLM在相同候选排名设置下与强大的闭源LLM竞争,并在法律领域能力和更广泛的战略决策中取得进展。

🔬 方法详解

问题定义:本文旨在解决多智能体系统中战略优先级的优化问题。现有方法在奖励设计上往往缺乏与智能体交互结构的有效结合,导致任务性能不足。

核心思路:GARL框架通过将战略优先级视为一个两阶段博弈,首先让智能体在共享候选集上分配资源,然后由高层仲裁者生成最终排名,从而优化智能体的交互策略。

技术框架:GARL的整体架构包括两个主要阶段:第一阶段是资源分配博弈,智能体根据策略分配资源;第二阶段是仲裁过程,生成最终的优先级排名。

关键创新:GARL的创新在于将博弈论的效用转化为角色特定的强化信号,这种设计使得策略优化能够更好地反映智能体之间的结构化交互。

关键设计:在GARL中,关键的参数设置包括博弈的参与者数量、资源分配策略以及仲裁者的决策规则。损失函数设计上,结合了博弈论的效用函数与强化学习的奖励信号,以确保策略优化的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GARL在法律领域的核心问题排序任务中显著提升了性能,尤其是小型开源LLM在相同候选排名设置下与强大的闭源LLM竞争时,表现出色,具体提升幅度未知。

🎯 应用场景

GARL框架在法律领域具有广泛的应用潜力,尤其是在法律程序中的问题优先级排序。通过优化智能体的交互策略,GARL能够提高法律决策的效率和准确性。此外,该框架也可扩展至其他需要多智能体协作的战略决策场景,具有重要的实际价值和未来影响。

📄 摘要(原文)

LLM-based multi-agent systems are increasingly used for strategic decision-making tasks. In such settings, performance depends not only on individual model capabilities, but also on the policies by which agents interact and adapt. Multi-agent reinforcement learning can optimise these interaction policies, but its reward design often remains task-specific and weakly grounded in interaction structure. To address this gap, we propose GARL, a GAme-theoretic Reinforcement Learning framework for multi-agent strategic prioritisation. GARL formalises strategic prioritisation as a two-stage game: competing agents first allocate strategic resources over a shared candidate set, and a higher-level arbiter then produces the final ranking. The resulting game-theoretic utilities are converted into role-specific reinforcement signals, allowing policy optimisation to be guided by structured interaction. We instantiate GARL on issues-in-dispute ranking, where the goal is to prioritise core issues in legal proceedings. Experiments show that GARL improves ranking performance, enables small open-source LLMs to become competitive with a strong closed-source LLM under the same candidate-ranking setting, and yields gains in legal-domain competence and broader strategic decision-making. Overall, GARL demonstrates how game-theoretic interaction structure can be turned into reinforcement-learning objectives, providing a principled approach to policy optimisation in multi-agent strategic prioritisation.