Equilibrium Residuals Expose Three Regimes of Matrix-Game Strategic Reasoning in Language Models

📄 arXiv: 2605.10410v1 📥 PDF

作者: Wenhua Nie, Binhan Luo, Zijie Meng, Jyh-Shing Roger Jang, Ching-Wen Ma

分类: cs.LG

发布日期: 2026-05-11


💡 一句话要点

通过均衡残差揭示大语言模型在矩阵博弈战略推理中的三个阶段

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 战略推理 博弈论 纳什均衡 可利用性残差 程序化评估 零和博弈

📋 核心要点

  1. 现有大模型在博弈论任务中高度依赖语义线索,缺乏真正的战略推理能力,在匿名矩阵博弈中表现出随规模增加而急剧下降的趋势。
  2. 论文提出通过程序化生成矩阵博弈进行评估,并引入基于可利用性残差的训练方法,旨在解耦语义记忆与近似纳什均衡计算能力。
  3. 实验表明,通过监督微调和残差奖励训练,模型在未见过的更大规模矩阵博弈中的成功率显著提升,证明了残差训练在复杂博弈中的迁移潜力。

📝 摘要(中文)

大型语言模型在命名博弈论基准测试中表现优异,但在去除语义线索后,其战略计算能力显著下降。本文通过程序生成的零和矩阵博弈揭示了这一差距:模型在识别熟悉博弈时表现良好,但在匿名 2×2、3×3 和 5×5 收益矩阵上的成功率分别降至 34%、18% 和 2%。该基准测试区分了语义记忆、习得的近似纳什均衡计算以及限制规模的输出接口瓶颈。研究发现,仅在 2×2 和 3×3 博弈上进行监督微调,可将未见过的 5×5 至 7×7 博弈成功率从 2% 提升至 61%;而可利用性奖励训练平均成功率为 37%,但种子方差较大。我们证明了可利用性残差在收益扰动下是 2-Lipschitz 连续的,这解释了为何残差训练能在收益偏移下实现迁移。受控实验表明,模型能够解决嵌入在更大矩阵中的 3×3 博弈,证明了程序化评估对于衡量战略推理的必要性。

🔬 方法详解

问题定义:论文旨在解决大语言模型在博弈论任务中“伪推理”的问题。现有模型往往通过记忆语义模式而非理解博弈逻辑来求解,导致在去除语义背景的匿名矩阵博弈中性能崩塌,且存在输出接口瓶颈限制了其处理复杂博弈的能力。

核心思路:通过程序化生成大量匿名矩阵博弈,将战略推理能力从语义记忆中剥离。利用纳什均衡的可利用性(Exploitability)作为训练信号,通过残差学习引导模型逼近均衡解,而非直接拟合输出标签。

技术框架:研究构建了包含不同规模(2×2至12×12)的零和博弈数据集。训练阶段分为监督微调(SFT)和基于可利用性奖励的强化学习(RL)。评估阶段通过对比模型在不同规模矩阵下的成功率,分析其推理能力的边界。

关键创新:证明了可利用性残差在收益扰动下具有 2-Lipschitz 连续性,这使得模型在面对收益矩阵变化时具有更好的鲁棒性和泛化能力,克服了传统线性规划(LP)求解器在输出格式上的不稳定性。

关键设计:引入了“受控填充实验”,将小规模博弈嵌入大矩阵中,通过对比随机填充与受控填充的性能,验证了模型对核心博弈结构的识别能力,并量化了模型在处理复杂博弈时的推理极限。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果显示,通过监督微调,模型在未见过的 5×5 至 7×7 矩阵博弈中的成功率从 2% 跃升至 61%。研究首次量化了模型在匿名博弈中的性能衰减规律,并证明了残差训练能够有效克服格式不稳定性,使模型在处理嵌入式复杂博弈时展现出优于随机基线的推理能力。

🎯 应用场景

该研究在多智能体系统、自动化决策支持及博弈论算法开发领域具有重要价值。通过提升模型在匿名环境下的战略推理能力,可增强大模型在复杂商业谈判、资源分配及对抗性博弈场景中的决策可靠性,为构建更具逻辑严密性的智能体提供理论与实践支撑。

📄 摘要(原文)

Large language models can score well on named game-theory benchmarks while failing on the same strategic computation once semantic cues are removed. We show this gap with procedurally generated zero-sum matrix games: a model that recognizes familiar games drops to 34%, 18%, and 2% success on anonymous $2{\times}2$, $3{\times}3$, and $5{\times}5$ payoff matrices. The benchmark separates semantic recall, learned approximate Nash computation, and an output-interface bottleneck that limits scale. Training only on $2{\times}2$ and $3{\times}3$ games, supervised fine-tuning raises unseen $5{\times}5$--$7{\times}7$ success from 2% to 61%, while exploitability-reward training averages 37% with high seed variance. We prove that the exploitability residual is $2$-Lipschitz in payoff perturbations, unlike discontinuous vertex-returning LP equilibrium selectors, explaining why residual training can transfer under payoff shifts even when formatting instability limits mean performance. A dominated-action padding experiment provides causal evidence: trained models solve $3{\times}3$ games embedded in much larger matrices, while random-padded controls fail and dense $12{\times}12$ games remain near failure. Procedural evaluation is therefore necessary for measuring strategic reasoning, and residual rewards expose a real but format-limited route to approximate equilibrium computation.