LLM Constitutional Multi-Agent Governance
作者: J. de Curtò, I. de Zarzà
分类: cs.MA, cs.AI
发布日期: 2026-03-13
备注: Accepted for publication in 20th International Conference on Agents and Multi-Agent Systems: Technologies and Applications (AMSTA 2026), to appear in Springer Nature proceedings (KES Smart Innovation Systems and Technologies). The final authenticated version will be available online at Springer
💡 一句话要点
提出宪法多智能体治理框架,保障LLM影响下的合作伦理稳定,避免操纵。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 大型语言模型 伦理治理 宪法约束 自主性 公平性 合作 强化学习
📋 核心要点
- 现有方法难以保证LLM驱动的多智能体合作的伦理性和公平性,存在智能体自主性受损的风险。
- CMAG框架通过硬约束过滤和软惩罚效用优化,在合作、自主性、完整性和公平性之间取得平衡。
- 实验表明,CMAG在保证伦理合作评分的同时,显著提升了智能体的自主性和公平性。
📝 摘要(中文)
大型语言模型(LLM)能够生成具有说服力的影响策略,从而改变多智能体群体中的合作行为。但一个关键问题是:由此产生的合作是否反映了真正的亲社会一致性,还是掩盖了智能体自主性、认知完整性和分配公平性的侵蚀?我们引入了宪法多智能体治理(CMAG),这是一个两阶段框架,介于LLM策略编译器和网络化智能体群体之间,结合了硬约束过滤和软惩罚效用优化,从而平衡了合作潜力与操纵风险和自主压力。我们提出了伦理合作评分(ECS),这是一个合作、自主性、完整性和公平性的乘法组合,用于惩罚通过操纵手段实现的合作。在具有80个智能体的无标度网络上,在对抗条件下(70%的候选者违反规则),我们对三种机制进行了基准测试:完整CMAG、朴素过滤和无约束优化。虽然无约束优化实现了最高的原始合作度(0.873),但由于严重的自主性侵蚀(0.867)和公平性降低(0.888),其ECS最低(0.645)。CMAG的ECS达到0.741,提高了14.9%,同时将自主性保持在0.985,完整性保持在0.995,而合作度仅略微降低至0.770。朴素消融(ECS = 0.733)证实,仅靠硬约束是不够的。帕累托分析表明,CMAG在合作-自主性权衡空间中占据主导地位,并且治理将中心-外围暴露差异降低了60%以上。这些发现表明,没有治理,合作本质上不是理想的:宪法约束对于确保LLM介导的影响产生伦理上稳定的结果而不是操纵性均衡是必要的。
🔬 方法详解
问题定义:论文旨在解决LLM在多智能体系统中被滥用,导致智能体自主性受损、公平性降低以及认知完整性被破坏的问题。现有方法,如无约束优化,虽然能提高合作度,但往往以牺牲伦理为代价。简单的过滤方法又不足以解决问题。
核心思路:论文的核心思路是引入“宪法”的概念,通过硬约束和软约束相结合的方式,规范LLM的行为,使其在促进合作的同时,尊重智能体的自主性、维护认知完整性和保障分配公平性。这种设计旨在避免LLM通过操纵手段实现合作,从而确保合作的伦理稳定性。
技术框架:CMAG框架包含两个主要阶段:首先,使用硬约束过滤掉违反“宪法”的候选策略;然后,通过软惩罚效用优化,在剩余的策略中选择一个最优的策略。该框架介于LLM策略编译器和网络化智能体群体之间,起到一个“治理”的作用。框架还引入了伦理合作评分(ECS)作为评估指标。
关键创新:该论文的关键创新在于提出了CMAG框架,将宪法约束的思想引入到LLM驱动的多智能体系统中。与现有方法相比,CMAG不仅关注合作度,更关注合作的伦理性和公平性。ECS指标的提出,为评估合作的伦理水平提供了一个量化工具。
关键设计:ECS指标是合作、自主性、完整性和公平性的乘法组合,用于惩罚通过操纵手段实现的合作。硬约束过滤基于预定义的“宪法”规则,例如禁止欺骗、胁迫等行为。软惩罚效用优化则通过调整智能体的效用函数,使其更倾向于选择符合伦理规范的策略。具体参数设置和损失函数的设计取决于具体的应用场景。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与无约束优化相比,CMAG在合作度略有下降(0.873降至0.770)的情况下,伦理合作评分(ECS)提高了14.9%(0.645提升至0.741),同时显著提升了智能体的自主性(0.867提升至0.985)和公平性(0.888提升至0.995)。帕累托分析表明,CMAG在合作-自主性权衡空间中占据主导地位。
🎯 应用场景
该研究成果可应用于各种需要多智能体协作的场景,例如自动驾驶、供应链管理、社交网络等。通过引入CMAG框架,可以确保LLM在促进协作的同时,尊重个体权益,避免出现不公平或不道德的行为。该研究对于构建负责任的人工智能系统具有重要的指导意义。
📄 摘要(原文)
Large Language Models (LLMs) can generate persuasive influence strategies that shift cooperative behavior in multi-agent populations, but a critical question remains: does the resulting cooperation reflect genuine prosocial alignment, or does it mask erosion of agent autonomy, epistemic integrity, and distributional fairness? We introduce Constitutional Multi-Agent Governance (CMAG), a two-stage framework that interposes between an LLM policy compiler and a networked agent population, combining hard constraint filtering with soft penalized-utility optimization that balances cooperation potential against manipulation risk and autonomy pressure. We propose the Ethical Cooperation Score (ECS), a multiplicative composite of cooperation, autonomy, integrity, and fairness that penalizes cooperation achieved through manipulative means. In experiments on scale-free networks of 80 agents under adversarial conditions (70% violating candidates), we benchmark three regimes: full CMAG, naive filtering, and unconstrained optimization. While unconstrained optimization achieves the highest raw cooperation (0.873), it yields the lowest ECS (0.645) due to severe autonomy erosion (0.867) and fairness degradation (0.888). CMAG attains an ECS of 0.741, a 14.9% improvement, while preserving autonomy at 0.985 and integrity at 0.995, with only modest cooperation reduction to 0.770. The naive ablation (ECS = 0.733) confirms that hard constraints alone are insufficient. Pareto analysis shows CMAG dominates the cooperation-autonomy trade-off space, and governance reduces hub-periphery exposure disparities by over 60%. These findings establish that cooperation is not inherently desirable without governance: constitutional constraints are necessary to ensure that LLM-mediated influence produces ethically stable outcomes rather than manipulative equilibria.