Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs
作者: Panatchakorn Anantaprayoon, Nataliia Babina, Nima Asgharbeygi, Jad Tarifi
分类: cs.CL, cs.AI
发布日期: 2026-03-11
💡 一句话要点
提出基于多智能体协商的LLM对齐框架,提升集体价值对齐与冲突解决能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体协商 LLM对齐 集体价值对齐 冲突解决 RLAIF GRPO
📋 核心要点
- 现有LLM对齐方法在多方利益相关者场景中存在局限性,难以处理价值观冲突和进行有效协商。
- 提出一种基于多智能体协商的LLM对齐框架,通过模拟不同角色的对话来学习解决冲突。
- 实验表明,该模型在集体行动对齐方面与单智能体基线相当,并显著提高了冲突解决能力。
📝 摘要(中文)
大型语言模型(LLM)的对齐在单智能体设置中取得了显著进展,例如通过RLHF和宪法AI等范式。然而,这些方法在多方利益相关者环境中仍然受限,因为在这些环境中会产生价值观冲突,并且需要审议协商能力。本文提出了一种基于多智能体协商的对齐框架,该框架将LLM与集体行动(CA)对齐——一种旨在促进机构持续扩展的现有对齐目标——同时提高冲突解决能力。为了实现可扩展的训练,同一LLM的两个自博弈实例(分配了相反的角色)进行结构化的回合制对话,以综合互利的解决方案。我们生成合成的道德困境提示和冲突的角色对,并使用带有外部LLM奖励模型的GRPO通过RLAIF优化策略。虽然奖励是从分配给最终完成的CA分数计算的,但梯度被应用于对话token,以直接改善审议交互动态。实验表明,由此产生的模型实现了与单智能体基线相当的CA对齐,同时显着提高了冲突解决性能,而不会降低通用语言能力。这些结果表明,协商驱动的审议训练为LLM提供了一条更实用的路径,使其能够更好地支持价值冲突场景中的集体决策。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在多方利益相关者场景下的对齐问题,即如何使LLM在存在价值观冲突的情况下,能够进行有效的协商和决策,从而达成集体价值对齐。现有方法,如RLHF,主要关注单智能体设置,无法有效处理多方利益冲突的情况。
核心思路:论文的核心思路是利用多智能体协商来训练LLM,使其能够通过模拟不同角色的对话,学习识别和解决价值观冲突,从而达成集体价值对齐。通过让LLM扮演具有不同立场的角色,进行回合制对话,可以有效地探索和学习协商策略。
技术框架:整体框架包括以下几个主要模块:1) 道德困境提示生成器:用于生成包含道德冲突的提示;2) 角色分配器:将不同的角色分配给两个LLM实例;3) 对话模拟器:模拟两个LLM实例之间的回合制对话;4) 奖励模型:使用外部LLM评估最终完成的集体行动(CA)分数,作为奖励信号;5) 策略优化器:使用GRPO和RLAIF优化LLM的对话策略。
关键创新:论文的关键创新在于将多智能体协商引入LLM对齐,并提出了一种可扩展的训练方法。通过自博弈的方式,让LLM学习在冲突场景下进行协商,从而提高其集体价值对齐和冲突解决能力。此外,直接将梯度应用于对话token,以改善审议交互动态,也是一个重要的创新点。
关键设计:论文的关键设计包括:1) 使用合成的道德困境提示和冲突的角色对,以构建训练数据;2) 使用集体行动(CA)作为对齐目标,并使用外部LLM评估CA分数;3) 使用GRPO和RLAIF进行策略优化,并直接将梯度应用于对话token;4) 使用回合制对话结构,以促进协商过程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该模型在集体行动对齐方面与单智能体基线相当,同时显著提高了冲突解决性能,而不会降低通用语言能力。具体来说,该模型在冲突解决任务上的表现优于单智能体基线,并且在通用语言能力方面没有明显的下降。
🎯 应用场景
该研究成果可应用于需要集体决策的场景,例如在线论坛、政策制定、资源分配等。通过训练能够有效协商和解决冲突的LLM,可以促进更公平、高效的集体决策过程,并减少社会冲突。未来,该技术有望应用于更复杂的社会互动场景,例如国际谈判和危机管理。
📄 摘要(原文)
The alignment of large language models (LLMs) has progressed substantially in single-agent settings through paradigms such as RLHF and Constitutional AI, with recent work exploring scalable alternatives such as RLAIF and evolving alignment objectives. However, these approaches remain limited in multi-stakeholder settings, where conflicting values arise and deliberative negotiation capabilities are required. This work proposes a multi-agent negotiation-based alignment framework that aligns LLMs to Collective Agency (CA)-an existing alignment objective introduced to promote the continual expansion of agency-while simultaneously improving conflict-resolution capability. To enable scalable training, two self-play instances of the same LLM, assigned opposing personas, engage in structured turn-based dialogue to synthesize mutually beneficial solutions. We generate synthetic moral-dilemma prompts and conflicting persona pairs, and optimize the policy via RLAIF using GRPO with an external LLM reward model. While rewards are computed from CA scores assigned to the final completion, gradients are applied to dialogue tokens to directly improve deliberative interaction dynamics. Experiments show that the resulting model achieves CA alignment comparable to a single-agent baseline while substantially improving conflict-resolution performance without degrading general language capabilities. These results suggest that negotiation-driven deliberation training provides a practical path toward LLMs that better support collective decision-making in value-conflict scenarios.