DEBATE: A Large-Scale Benchmark for Role-Playing LLM Agents in Multi-Agent, Long-Form Debates

作者: Yun-Shiuan Chuang, Ruixuan Tu, Chengtao Dai, Smit Vasani, You Li, Binwei Yao, Michael Henry Tessler, Sijia Yang, Dhavan Shah, Robert Hawkins, Junjie Hu, Timothy T. Rogers

分类: cs.CL

发布日期: 2025-10-29 (更新: 2026-01-31)

💡 一句话要点

DEBATE：一个大规模基准，用于评估多智能体、长程辩论中角色扮演LLM智能体的行为真实性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多智能体系统 角色扮演LLM 社会互动模拟 观点动态 基准测试

📋 核心要点

现有方法在模拟多智能体社会互动时，群体行为不自然，例如过早收敛，缺乏与真实人类群体互动的对齐。
DEBATE基准旨在通过提供大规模、高质量的人类辩论数据，评估和改进角色扮演LLM智能体模拟社会互动时的真实性。
实验表明，零样本RPLA群体观点收敛过强，通过SFT和DPO训练可以改善立场对齐，但仍与人类行为存在差距。

📝 摘要（中文）

为了理解和缓解社会极化、虚假信息和冲突，准确建模社会互动中的观点变化至关重要。现有工作使用角色扮演LLM智能体（RPLA）模拟观点动态，但多智能体模拟常表现出不自然的群体行为（如过早收敛），且缺乏评估与真实人类群体互动一致性的基准。我们提出了DEBATE，一个大规模基准，用于评估多智能体RPLA模拟中观点动态的真实性。DEBATE包含来自708个群体、107个主题的2832名美国参与者的36383条消息，包括公开消息和私人的李克特量表信念，支持在话语和群体层面进行评估（并支持未来个体层面的分析）。我们实例化了七个LLM的“数字孪生”RPLA，并在两种设置下评估：下一条消息预测和完整对话展开，使用立场对齐和观点收敛指标。在零样本设置中，RPLA群体相对于人类群体表现出强烈的观点收敛。通过监督微调（SFT）和直接偏好优化（DPO）进行后训练，提高了立场对齐，并使群体层面的收敛更接近人类行为，但观点变化和信念更新方面仍然存在差异。DEBATE实现了对模拟观点动态的严格基准测试，并支持未来将多智能体RPLA与真实人类互动对齐的研究。

🔬 方法详解

问题定义：论文旨在解决如何评估和提升多智能体LLM在模拟社会互动（特别是辩论）中的真实性问题。现有方法缺乏大规模、高质量的人类数据基准，难以有效评估和改进LLM智能体的行为，导致模拟结果与真实人类互动存在较大差距，例如观点收敛速度过快等问题。

核心思路：论文的核心思路是构建一个大规模的人类辩论数据集DEBATE，并基于此数据集评估和训练LLM智能体，使其在模拟辩论中表现出更真实的人类行为。通过对比LLM智能体和人类在辩论中的观点变化、立场对齐和群体收敛等指标，可以有效地衡量LLM智能体的真实性，并指导模型的改进。

技术框架：DEBATE基准包含以下几个关键组成部分：1）大规模人类辩论数据集：包含来自多个群体、多个主题的辩论数据，包括公开消息和私人的李克特量表信念。2）RPLA智能体：使用不同的LLM实例化“数字孪生”RPLA智能体，模拟人类参与者的行为。3）评估指标：包括立场对齐和观点收敛等指标，用于衡量RPLA智能体和人类在辩论中的行为差异。4）训练方法：使用SFT和DPO等方法对RPLA智能体进行训练，使其更接近人类行为。

关键创新：论文最重要的技术创新点在于构建了一个大规模、高质量的人类辩论数据集DEBATE，该数据集不仅包含公开消息，还包含私人的信念数据，从而可以更全面地评估LLM智能体的行为。此外，论文还提出了基于立场对齐和观点收敛等指标的评估方法，可以有效地衡量LLM智能体的真实性。与现有方法相比，DEBATE基准提供了更丰富的数据和更全面的评估指标，可以更有效地指导LLM智能体的改进。

关键设计：在数据收集方面，论文精心设计了辩论主题和参与者招募流程，确保数据的多样性和代表性。在模型训练方面，论文采用了SFT和DPO等先进的训练方法，并针对辩论场景进行了优化。在评估指标方面，论文综合考虑了立场对齐和观点收敛等多个因素，力求全面评估LLM智能体的行为。

🖼️ 关键图片

📊 实验亮点

实验结果表明，零样本RPLA群体表现出过强的观点收敛，与人类群体存在明显差异。通过SFT和DPO训练，RPLA智能体的立场对齐得到显著改善，群体层面的收敛行为也更接近人类。然而，在观点变化和信念更新方面，RPLA智能体仍然与人类存在差距，表明未来仍有改进空间。

🎯 应用场景

该研究成果可应用于社会科学研究、舆情分析、虚假信息检测与治理等领域。通过构建更真实的社会互动模拟，可以帮助研究人员更好地理解社会动态，预测群体行为，并制定更有效的政策。此外，该研究还可以用于开发更智能的对话系统和社交机器人，提升人机交互的自然性和有效性。

📄 摘要（原文）

Accurately modeling opinion change through social interactions is crucial for understanding and mitigating polarization, misinformation, and societal conflict. Recent work simulates opinion dynamics with role-playing LLM agents (RPLAs), but multi-agent simulations often display unnatural group behavior (e.g., premature convergence) and lack empirical benchmarks for assessing alignment with real human group interactions. We introduce DEBATE, a large-scale benchmark for evaluating the authenticity of opinion dynamics in multi-agent RPLA simulations. DEBATE contains 36,383 messages from 2,832 U.S.-based participants across 708 groups and 107 topics, with both public messages and private Likert-scale beliefs, enabling evaluation at the utterance and group levels (and supporting future individual-level analyses). We instantiate "digital twin" RPLAs with seven LLMs and evaluate across two settings: next-message prediction and full conversation rollout, using stance-alignment and opinion-convergence metrics. In zero-shot settings, RPLA groups exhibit strong opinion convergence relative to human groups. Post-training via supervised fine-tuning (SFT) and Direct Preference Optimization (DPO) improves stance alignment and brings group-level convergence closer to human behavior, though discrepancies in opinion change and belief updating remain. DEBATE enables rigorous benchmarking of simulated opinion dynamics and supports future research on aligning multi-agent RPLAs with realistic human interactions.

DEBATE: A Large-Scale Benchmark for Role-Playing LLM Agents in Multi-Agent, Long-Form Debates

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理