Beyond Inefficiency: Systemic Costs of Incivility in Multi-Agent Monte Carlo Simulations

📄 arXiv: 2605.11789v1 📥 PDF

作者: Alison Moldovan-Mauer, Benedikt Mangold

分类: cs.AI

发布日期: 2026-05-12


💡 一句话要点

利用LLM多智能体模拟揭示不文明行为对效率的系统性影响

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大型语言模型 不文明行为 蒙特卡洛模拟 交互效率 社会学研究 对抗性辩论 先发优势

📋 核心要点

  1. 现有研究难以量化不文明行为对效率的直接影响,尤其是在复杂社会互动中。
  2. 利用LLM构建多智能体系统,作为可控的社会学实验环境,系统性操纵交流行为。
  3. 蒙特卡洛模拟验证了不文明行为导致收敛延迟,并揭示了先发优势,尤其是在小模型中。

📝 摘要(中文)

不建设性的辩论和不文明的交流会带来生产力和凝聚力方面的成本,但要分离出它们对运营效率的影响已被证明是困难的。该领域的人类受试者研究受到伦理监督、有限的可重复性和自然环境的内在不可预测性的限制。我们通过利用基于大型语言模型(LLM)的多智能体系统作为一个受控的社会学沙盒来解决这一差距,从而能够大规模地系统地操纵交流行为。使用蒙特卡洛模拟框架,我们生成了数千个结构化的1对1对抗性辩论,跨越不同的毒性条件,测量收敛时间(定义为达到结论所需的轮数)作为交互效率的代理。在前人研究的基础上,我们复制并扩展了其在两个不同参数大小的LLM智能体上的发现,从而使我们能够评估有毒行为对辩论动态的影响是否可以推广到模型规模。先前研究中报告的25%的收敛延迟得到了证实。研究发现,对于参数较少的模型,这种延迟明显更大。我们进一步发现了一个显著的先发优势,即发起讨论的智能体无论毒性条件如何,都明显高于偶然性地获胜。

🔬 方法详解

问题定义:论文旨在量化不文明行为对多智能体交互效率的影响。现有研究难以在真实场景中有效控制和测量不文明行为,伦理限制和环境不可预测性也增加了研究难度。因此,需要一种可控、可重复的方法来研究不文明行为的系统性成本。

核心思路:论文的核心思路是利用大型语言模型(LLM)构建多智能体系统,模拟对抗性辩论场景。通过控制辩论中的“毒性”水平,并使用蒙特卡洛模拟生成大量数据,从而量化不文明行为对辩论收敛速度的影响。这种方法将社会学研究置于一个可控的“沙盒”环境中。

技术框架:该研究的技术框架主要包括以下几个部分:1) 使用LLM构建两个智能体,模拟辩论参与者;2) 设计对抗性辩论场景,并控制辩论中的“毒性”水平;3) 使用蒙特卡洛模拟生成数千个辩论实例;4) 测量每个辩论实例的收敛时间(达到结论所需的轮数),作为交互效率的指标;5) 分析数据,量化不文明行为对收敛时间的影响,并识别其他影响因素(如先发优势)。

关键创新:该研究的关键创新在于将LLM多智能体系统应用于社会学研究,创建了一个可控的实验环境,从而能够系统地研究不文明行为的影响。与传统的人类受试者研究相比,该方法具有更高的可重复性和可控性。此外,该研究还量化了不文明行为对交互效率的影响,并识别了先发优势等重要因素。

关键设计:研究中使用了不同参数规模的LLM智能体,以评估结果的泛化能力。收敛时间被定义为达到结论所需的轮数,作为交互效率的代理指标。通过统计分析,研究人员量化了不同毒性水平下收敛时间的差异,并评估了先发优势的影响。具体的参数设置和损失函数等技术细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不文明行为会导致辩论收敛时间延迟25%,证实了先前研究的发现。此外,研究发现,对于参数较少的模型,这种延迟更为显著。一个重要的发现是存在显著的先发优势,即发起讨论的智能体无论毒性条件如何,都更有可能获胜。这些结果突出了不文明行为对效率的负面影响,以及先发优势在辩论中的重要性。

🎯 应用场景

该研究成果可应用于在线社区管理、对话系统设计和团队协作优化等领域。通过理解不文明行为对效率的影响,可以设计更有效的沟通策略和平台机制,减少冲突,提高协作效率,构建更和谐的在线环境。该研究也为社会科学研究提供了一种新的方法。

📄 摘要(原文)

Unconstructive debate and uncivil communication carry well-documented costs for productivity and cohesion, yet isolating their effect on operational efficiency has proven difficult. Human subject research in this domain is constrained by ethical oversight, limited reproducibility, and the inherent unpredictability of naturalistic settings. We address this gap by leveraging Large Language Model (LLM) based Multi-Agent Systems as a controlled sociological sandbox, enabling systematic manipulation of communicative behavior at scale. Using a Monte Carlo simulation framework, we generate thousands of structured 1-on-1 adversarial debates across varying toxicity conditions, measuring convergence time, defined as the number of rounds required to reach a conclusion, as a proxy for interactional efficiency. Building on a prior study, we replicate and extend its findings across two additional LLM agents of varying parameter size, allowing us to assess whether the effects of toxic behavior on debate dynamics generalize across model scale. The convergence latency of 25% reported in the previous study was confirmed. It was found that this latency is significantly bigger for models with fewer parameters. We further identify a significant first-mover advantage, whereby the agent initiating the discussion wins significantly above chance regardless of toxicity condition.