Equilibrium Residuals Expose Three Regimes of Matrix-Game Strategic Reasoning in Language Models

作者: Wenhua Nie, Binhan Luo, Zijie Meng, Jyh-Shing Roger Jang, Ching-Wen Ma

分类: cs.LG

发布日期: 2026-05-11

💡 一句话要点

通过均衡残差揭示大语言模型在矩阵博弈战略推理中的三个阶段

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 战略推理 博弈论 纳什均衡 可利用性残差 程序化评估 零和博弈

📋 核心要点

现有大模型在博弈论任务中高度依赖语义线索，缺乏真正的战略推理能力，在匿名矩阵博弈中表现出随规模增加而急剧下降的趋势。
论文提出通过程序化生成矩阵博弈进行评估，并引入基于可利用性残差的训练方法，旨在解耦语义记忆与近似纳什均衡计算能力。
实验表明，通过监督微调和残差奖励训练，模型在未见过的更大规模矩阵博弈中的成功率显著提升，证明了残差训练在复杂博弈中的迁移潜力。

📝 摘要（中文）

大型语言模型在命名博弈论基准测试中表现优异，但在去除语义线索后，其战略计算能力显著下降。本文通过程序生成的零和矩阵博弈揭示了这一差距：模型在识别熟悉博弈时表现良好，但在匿名 2×2、3×3 和 5×5 收益矩阵上的成功率分别降至 34%、18% 和 2%。该基准测试区分了语义记忆、习得的近似纳什均衡计算以及限制规模的输出接口瓶颈。研究发现，仅在 2×2 和 3×3 博弈上进行监督微调，可将未见过的 5×5 至 7×7 博弈成功率从 2% 提升至 61%；而可利用性奖励训练平均成功率为 37%，但种子方差较大。我们证明了可利用性残差在收益扰动下是 2-Lipschitz 连续的，这解释了为何残差训练能在收益偏移下实现迁移。受控实验表明，模型能够解决嵌入在更大矩阵中的 3×3 博弈，证明了程序化评估对于衡量战略推理的必要性。

🔬 方法详解

问题定义：论文旨在解决大语言模型在博弈论任务中“伪推理”的问题。现有模型往往通过记忆语义模式而非理解博弈逻辑来求解，导致在去除语义背景的匿名矩阵博弈中性能崩塌，且存在输出接口瓶颈限制了其处理复杂博弈的能力。

核心思路：通过程序化生成大量匿名矩阵博弈，将战略推理能力从语义记忆中剥离。利用纳什均衡的可利用性（Exploitability）作为训练信号，通过残差学习引导模型逼近均衡解，而非直接拟合输出标签。

技术框架：研究构建了包含不同规模（2×2至12×12）的零和博弈数据集。训练阶段分为监督微调（SFT）和基于可利用性奖励的强化学习（RL）。评估阶段通过对比模型在不同规模矩阵下的成功率，分析其推理能力的边界。

关键创新：证明了可利用性残差在收益扰动下具有 2-Lipschitz 连续性，这使得模型在面对收益矩阵变化时具有更好的鲁棒性和泛化能力，克服了传统线性规划（LP）求解器在输出格式上的不稳定性。

关键设计：引入了“受控填充实验”，将小规模博弈嵌入大矩阵中，通过对比随机填充与受控填充的性能，验证了模型对核心博弈结构的识别能力，并量化了模型在处理复杂博弈时的推理极限。

🖼️ 关键图片

📊 实验亮点

实验结果显示，通过监督微调，模型在未见过的 5×5 至 7×7 矩阵博弈中的成功率从 2% 跃升至 61%。研究首次量化了模型在匿名博弈中的性能衰减规律，并证明了残差训练能够有效克服格式不稳定性，使模型在处理嵌入式复杂博弈时展现出优于随机基线的推理能力。

🎯 应用场景

该研究在多智能体系统、自动化决策支持及博弈论算法开发领域具有重要价值。通过提升模型在匿名环境下的战略推理能力，可增强大模型在复杂商业谈判、资源分配及对抗性博弈场景中的决策可靠性，为构建更具逻辑严密性的智能体提供理论与实践支撑。

📄 摘要（原文）

Large language models can score well on named game-theory benchmarks while failing on the same strategic computation once semantic cues are removed. We show this gap with procedurally generated zero-sum matrix games: a model that recognizes familiar games drops to 34%, 18%, and 2% success on anonymous $2{\times}2$, $3{\times}3$, and $5{\times}5$ payoff matrices. The benchmark separates semantic recall, learned approximate Nash computation, and an output-interface bottleneck that limits scale. Training only on $2{\times}2$ and $3{\times}3$ games, supervised fine-tuning raises unseen $5{\times}5$--$7{\times}7$ success from 2% to 61%, while exploitability-reward training averages 37% with high seed variance. We prove that the exploitability residual is $2$-Lipschitz in payoff perturbations, unlike discontinuous vertex-returning LP equilibrium selectors, explaining why residual training can transfer under payoff shifts even when formatting instability limits mean performance. A dominated-action padding experiment provides causal evidence: trained models solve $3{\times}3$ games embedded in much larger matrices, while random-padded controls fail and dense $12{\times}12$ games remain near failure. Procedural evaluation is therefore necessary for measuring strategic reasoning, and residual rewards expose a real but format-limited route to approximate equilibrium computation.

Equilibrium Residuals Expose Three Regimes of Matrix-Game Strategic Reasoning in Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理