Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

作者: Víctor Gallego

分类: cs.CL, cs.GT

发布日期: 2026-03-19

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于LLM策略合成框架，解决序贯社会困境中的合作与利用问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM策略合成 序贯社会困境 多智能体系统 反馈工程 合作博弈

📋 核心要点

现有方法难以在序贯社会困境中有效合成智能体策略，尤其是在合作与利用的平衡方面。
利用LLM生成和迭代优化策略，通过反馈工程引导LLM学习合作策略，无需强化学习训练。
实验表明，密集反馈（包含社会指标）优于稀疏反馈，能有效引导LLM学习更优的合作策略。

📝 摘要（中文）

本文研究了LLM策略合成：使用大型语言模型迭代生成多智能体环境下的程序化智能体策略。该框架不通过强化学习训练神经策略，而是提示LLM生成Python策略函数，在自博弈中评估它们，并使用迭代过程中的性能反馈来改进它们。我们研究了反馈工程（在改进过程中向LLM展示的评估信息的设计），比较了稀疏反馈（仅标量奖励）和密集反馈（奖励加上社会指标：效率、平等、可持续性、和平）。在两个典型的序贯社会困境（Gathering和Cleanup）和两个前沿LLM（Claude Sonnet 4.6、Gemini 3.1 Pro）中，密集反馈在所有指标上始终与稀疏反馈相匹配或超过稀疏反馈。在Cleanup公共物品博弈中，优势最为明显，其中提供社会指标有助于LLM校准代价高昂的清洁-收获权衡。社会指标没有引发对公平性的过度优化，而是充当了协调信号，引导LLM走向更有效的合作策略，包括领土划分、自适应角色分配和避免浪费性攻击。我们进一步进行了一项对抗性实验，以确定LLM是否可以奖励入侵这些环境。我们描述了五个攻击类别并讨论了缓解措施，强调了LLM策略合成中表达性和安全性之间固有的紧张关系。

🔬 方法详解

问题定义：论文旨在解决多智能体序贯社会困境中，如何利用大型语言模型（LLM）合成有效的智能体策略，以实现合作和避免过度利用的问题。现有方法，如强化学习，训练成本高昂，且难以泛化到复杂的社会困境场景。此外，如何引导LLM学习合作策略，避免其陷入自私自利的局部最优解，是一个挑战。

核心思路：论文的核心思路是利用LLM的强大生成能力，直接生成可执行的Python策略函数，并通过迭代优化和反馈工程来引导LLM学习合作策略。通过设计合适的反馈信号，特别是包含社会指标的密集反馈，可以有效地引导LLM探索更优的合作策略，而不是仅仅追求个体奖励最大化。

技术框架：该框架包含以下主要阶段：1) 策略生成：提示LLM生成Python策略函数，该函数根据环境状态决定智能体的行为。2) 策略评估：将生成的策略部署到多智能体环境中进行自博弈，并记录性能指标，包括奖励和社会指标（效率、平等、可持续性、和平）。3) 反馈与改进：将性能指标作为反馈提供给LLM，提示LLM改进策略。这个过程迭代进行，直到策略收敛或达到预定的迭代次数。

关键创新：该方法最重要的技术创新点在于利用反馈工程来引导LLM学习合作策略。与传统的强化学习方法不同，该方法不需要训练复杂的神经网络，而是直接利用LLM的生成能力和迭代优化能力。通过设计合适的反馈信号，可以有效地引导LLM探索更优的合作策略，并避免其陷入自私自利的局部最优解。

关键设计：关键设计包括：1) 反馈信号的设计：比较了稀疏反馈（仅标量奖励）和密集反馈（奖励加上社会指标）的效果。实验表明，密集反馈能够更有效地引导LLM学习合作策略。2) LLM的提示工程：设计合适的提示语，引导LLM生成高质量的策略函数。3) 对抗性实验的设计：设计了五种攻击类别，用于评估LLM策略的鲁棒性和安全性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在Gathering和Cleanup两个序贯社会困境中，密集反馈在所有指标上始终与稀疏反馈相匹配或超过稀疏反馈。在Cleanup游戏中，密集反馈的优势最为明显，能够帮助LLM更好地权衡清洁和收获之间的关系，从而实现更高的整体效率和公平性。此外，对抗性实验揭示了LLM策略的潜在安全风险，并为未来的研究提供了方向。

🎯 应用场景

该研究成果可应用于多智能体系统、资源管理、公共政策制定等领域。例如，可以利用该方法设计更公平、可持续的资源分配策略，或者在自动驾驶车辆中实现更安全的合作行为。此外，该方法还可以用于研究社会困境中的合作机制，并为公共政策的制定提供参考。

📄 摘要（原文）

We study LLM policy synthesis: using a large language model to iteratively generate programmatic agent policies for multi-agent environments. Rather than training neural policies via reinforcement learning, our framework prompts an LLM to produce Python policy functions, evaluates them in self-play, and refines them using performance feedback across iterations. We investigate feedback engineering (the design of what evaluation information is shown to the LLM during refinement) comparing sparse feedback (scalar reward only) against dense feedback (reward plus social metrics: efficiency, equality, sustainability, peace). Across two canonical Sequential Social Dilemmas (Gathering and Cleanup) and two frontier LLMs (Claude Sonnet 4.6, Gemini 3.1 Pro), dense feedback consistently matches or exceeds sparse feedback on all metrics. The advantage is largest in the Cleanup public goods game, where providing social metrics helps the LLM calibrate the costly cleaning-harvesting tradeoff. Rather than triggering over-optimization of fairness, social metrics serve as a coordination signal that guides the LLM toward more effective cooperative strategies, including territory partitioning, adaptive role assignment, and the avoidance of wasteful aggression. We further perform an adversarial experiment to determine whether LLMs can reward hack these environments. We characterize five attack classes and discuss mitigations, highlighting an inherent tension in LLM policy synthesis between expressiveness and safety. Code at https://github.com/vicgalle/llm-policies-social-dilemmas.

Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理