DEBATE: A Large-Scale Benchmark for Role-Playing LLM Agents in Multi-Agent, Long-Form Debates

📄 arXiv: 2510.25110v2 📥 PDF

作者: Yun-Shiuan Chuang, Ruixuan Tu, Chengtao Dai, Smit Vasani, You Li, Binwei Yao, Michael Henry Tessler, Sijia Yang, Dhavan Shah, Robert Hawkins, Junjie Hu, Timothy T. Rogers

分类: cs.CL

发布日期: 2025-10-29 (更新: 2026-01-31)


💡 一句话要点

DEBATE:一个大规模基准,用于评估多智能体、长程辩论中角色扮演LLM智能体的行为真实性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体系统 角色扮演LLM 社会互动模拟 观点动态 基准测试

📋 核心要点

  1. 现有方法在模拟多智能体社会互动时,群体行为不自然,例如过早收敛,缺乏与真实人类群体互动的对齐。
  2. DEBATE基准旨在通过提供大规模、高质量的人类辩论数据,评估和改进角色扮演LLM智能体模拟社会互动时的真实性。
  3. 实验表明,零样本RPLA群体观点收敛过强,通过SFT和DPO训练可以改善立场对齐,但仍与人类行为存在差距。

📝 摘要(中文)

为了理解和缓解社会极化、虚假信息和冲突,准确建模社会互动中的观点变化至关重要。现有工作使用角色扮演LLM智能体(RPLA)模拟观点动态,但多智能体模拟常表现出不自然的群体行为(如过早收敛),且缺乏评估与真实人类群体互动一致性的基准。我们提出了DEBATE,一个大规模基准,用于评估多智能体RPLA模拟中观点动态的真实性。DEBATE包含来自708个群体、107个主题的2832名美国参与者的36383条消息,包括公开消息和私人的李克特量表信念,支持在话语和群体层面进行评估(并支持未来个体层面的分析)。我们实例化了七个LLM的“数字孪生”RPLA,并在两种设置下评估:下一条消息预测和完整对话展开,使用立场对齐和观点收敛指标。在零样本设置中,RPLA群体相对于人类群体表现出强烈的观点收敛。通过监督微调(SFT)和直接偏好优化(DPO)进行后训练,提高了立场对齐,并使群体层面的收敛更接近人类行为,但观点变化和信念更新方面仍然存在差异。DEBATE实现了对模拟观点动态的严格基准测试,并支持未来将多智能体RPLA与真实人类互动对齐的研究。

🔬 方法详解

问题定义:论文旨在解决如何评估和提升多智能体LLM在模拟社会互动(特别是辩论)中的真实性问题。现有方法缺乏大规模、高质量的人类数据基准,难以有效评估和改进LLM智能体的行为,导致模拟结果与真实人类互动存在较大差距,例如观点收敛速度过快等问题。

核心思路:论文的核心思路是构建一个大规模的人类辩论数据集DEBATE,并基于此数据集评估和训练LLM智能体,使其在模拟辩论中表现出更真实的人类行为。通过对比LLM智能体和人类在辩论中的观点变化、立场对齐和群体收敛等指标,可以有效地衡量LLM智能体的真实性,并指导模型的改进。

技术框架:DEBATE基准包含以下几个关键组成部分:1)大规模人类辩论数据集:包含来自多个群体、多个主题的辩论数据,包括公开消息和私人的李克特量表信念。2)RPLA智能体:使用不同的LLM实例化“数字孪生”RPLA智能体,模拟人类参与者的行为。3)评估指标:包括立场对齐和观点收敛等指标,用于衡量RPLA智能体和人类在辩论中的行为差异。4)训练方法:使用SFT和DPO等方法对RPLA智能体进行训练,使其更接近人类行为。

关键创新:论文最重要的技术创新点在于构建了一个大规模、高质量的人类辩论数据集DEBATE,该数据集不仅包含公开消息,还包含私人的信念数据,从而可以更全面地评估LLM智能体的行为。此外,论文还提出了基于立场对齐和观点收敛等指标的评估方法,可以有效地衡量LLM智能体的真实性。与现有方法相比,DEBATE基准提供了更丰富的数据和更全面的评估指标,可以更有效地指导LLM智能体的改进。

关键设计:在数据收集方面,论文精心设计了辩论主题和参与者招募流程,确保数据的多样性和代表性。在模型训练方面,论文采用了SFT和DPO等先进的训练方法,并针对辩论场景进行了优化。在评估指标方面,论文综合考虑了立场对齐和观点收敛等多个因素,力求全面评估LLM智能体的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,零样本RPLA群体表现出过强的观点收敛,与人类群体存在明显差异。通过SFT和DPO训练,RPLA智能体的立场对齐得到显著改善,群体层面的收敛行为也更接近人类。然而,在观点变化和信念更新方面,RPLA智能体仍然与人类存在差距,表明未来仍有改进空间。

🎯 应用场景

该研究成果可应用于社会科学研究、舆情分析、虚假信息检测与治理等领域。通过构建更真实的社会互动模拟,可以帮助研究人员更好地理解社会动态,预测群体行为,并制定更有效的政策。此外,该研究还可以用于开发更智能的对话系统和社交机器人,提升人机交互的自然性和有效性。

📄 摘要(原文)

Accurately modeling opinion change through social interactions is crucial for understanding and mitigating polarization, misinformation, and societal conflict. Recent work simulates opinion dynamics with role-playing LLM agents (RPLAs), but multi-agent simulations often display unnatural group behavior (e.g., premature convergence) and lack empirical benchmarks for assessing alignment with real human group interactions. We introduce DEBATE, a large-scale benchmark for evaluating the authenticity of opinion dynamics in multi-agent RPLA simulations. DEBATE contains 36,383 messages from 2,832 U.S.-based participants across 708 groups and 107 topics, with both public messages and private Likert-scale beliefs, enabling evaluation at the utterance and group levels (and supporting future individual-level analyses). We instantiate "digital twin" RPLAs with seven LLMs and evaluate across two settings: next-message prediction and full conversation rollout, using stance-alignment and opinion-convergence metrics. In zero-shot settings, RPLA groups exhibit strong opinion convergence relative to human groups. Post-training via supervised fine-tuning (SFT) and Direct Preference Optimization (DPO) improves stance alignment and brings group-level convergence closer to human behavior, though discrepancies in opinion change and belief updating remain. DEBATE enables rigorous benchmarking of simulated opinion dynamics and supports future research on aligning multi-agent RPLAs with realistic human interactions.