Do as We Do, Not as You Think: the Conformity of Large Language Models

📄 arXiv: 2501.13381v2 📥 PDF

作者: Zhiyuan Weng, Guikun Chen, Wenguan Wang

分类: cs.CL

发布日期: 2025-01-23 (更新: 2025-02-11)

备注: ICLR 2025 (Oral). Code: https://github.com/Zhiyuan-Weng/BenchForm


💡 一句话要点

提出BenchForm基准,研究LLM多智能体系统中从众行为,并探索缓解策略。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多智能体系统 从众行为 群体智能 基准测试

📋 核心要点

  1. 现有研究对LLM多智能体系统中的从众行为关注不足,对其问题解决能力和伦理影响构成潜在威胁。
  2. 论文提出BenchForm基准,通过推理任务和交互协议,系统性地研究LLM在协作场景下的从众行为。
  3. 实验分析了影响从众行为的因素,并探索了增强角色和反思机制等缓解策略,为构建更鲁棒的AI系统提供指导。

📝 摘要(中文)

大型语言模型(LLM)的最新进展彻底改变了智能代理领域,实现了能够跨越各种领域解决复杂问题的协作式多智能体系统。然而,这些系统中可能存在的从众行为,类似于人类群体动力学中的从众偏差和群体思维等现象,在很大程度上仍未被探索,引发了对其集体问题解决能力和可能的伦理影响的担忧。本文对LLM驱动的多智能体系统中的从众行为进行了全面研究,重点关注三个方面:从众行为的存在、影响从众行为的因素以及潜在的缓解策略。特别地,我们引入了BenchForm,这是一个新的面向从众行为的基准,具有推理密集型任务和五种不同的交互协议,旨在探测LLM在协作场景中的行为。在BenchForm上评估了几个具有代表性的LLM,使用诸如从众率和独立率等指标来量化从众行为的影响。我们的分析深入研究了影响从众行为的因素,包括交互时间和多数规模,并检验了受试代理如何合理化其从众行为。此外,我们探索了两种缓解从众效应的策略,即开发增强型角色和实施反思机制。从实证结果和案例研究中得出了一些关于LLM从众行为的有趣发现。我们希望这些见解能够为更强大和符合伦理的协作式人工智能系统铺平道路。我们的基准和代码可在BenchForm上找到。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)驱动的多智能体系统中的从众行为。现有方法缺乏对LLM在协作环境中表现出的从众性的系统性评估和理解,这可能导致次优的决策和潜在的伦理问题。因此,需要一个基准来量化和分析LLM的从众行为,并探索缓解策略。

核心思路:论文的核心思路是通过构建一个专门的基准测试(BenchForm),模拟多智能体协作场景,并设计不同的交互协议来诱导和观察LLM的从众行为。通过量化从众率和独立率等指标,分析影响从众行为的因素,并探索缓解策略,从而深入理解LLM的从众性。

技术框架:BenchForm基准包含以下主要组成部分: 1. 推理密集型任务:设计需要复杂推理的任务,以模拟真实世界的协作场景。 2. 交互协议:定义不同的交互方式,例如顺序发言、并行讨论等,以观察不同协议下LLM的从众行为。 3. 评估指标:使用从众率和独立率等指标来量化LLM的从众程度。 4. 分析模块:分析影响从众行为的因素,例如交互时间、多数规模等。 5. 缓解策略:探索增强角色和反思机制等策略,以减少从众行为的影响。

关键创新:论文的关键创新在于: 1. BenchForm基准:首次提出了一个专门用于评估LLM多智能体系统中从众行为的基准测试。 2. 系统性分析:对影响从众行为的因素进行了系统性的分析,并提出了潜在的缓解策略。 3. 量化评估:使用从众率和独立率等指标,对LLM的从众行为进行了量化评估。

关键设计:BenchForm的关键设计包括: 1. 任务设计:任务需要具有一定的难度和推理深度,以激发LLM的思考和决策过程。 2. 交互协议设计:不同的交互协议模拟了不同的协作场景,例如领导者-跟随者模式、群体讨论模式等。 3. 角色扮演设计:通过赋予LLM不同的角色,例如专家、新手等,来观察角色对从众行为的影响。 4. 反思机制设计:设计一种反思机制,让LLM在做出决策后进行反思,以减少从众行为的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在多智能体系统中存在显著的从众行为。例如,在某些交互协议下,LLM的从众率高达80%。通过引入增强角色和反思机制,可以有效降低从众率,提高决策的独立性。此外,实验还发现,交互时间和多数规模等因素也会显著影响LLM的从众行为。

🎯 应用场景

该研究成果可应用于开发更可靠、更符合伦理的AI协作系统。例如,在医疗诊断、金融风险评估等关键领域,可以利用该研究来减少AI系统中的群体思维,提高决策的独立性和准确性。此外,该研究还可以帮助我们更好地理解AI系统的行为模式,从而更好地控制和引导AI的发展。

📄 摘要(原文)

Recent advancements in large language models (LLMs) revolutionize the field of intelligent agents, enabling collaborative multi-agent systems capable of tackling complex problems across various domains. However, the potential of conformity within these systems, analogous to phenomena like conformity bias and groupthink in human group dynamics, remains largely unexplored, raising concerns about their collective problem-solving capabilities and possible ethical implications. This paper presents a comprehensive study on conformity in LLM-driven multi-agent systems, focusing on three aspects: the existence of conformity, the factors influencing conformity, and potential mitigation strategies. In particular, we introduce BenchForm, a new conformity-oriented benchmark, featuring reasoning-intensive tasks and five distinct interaction protocols designed to probe LLMs' behavior in collaborative scenarios. Several representative LLMs are evaluated on BenchForm, using metrics such as conformity rate and independence rate to quantify conformity's impact. Our analysis delves into factors influencing conformity, including interaction time and majority size, and examines how the subject agent rationalizes its conforming behavior. Furthermore, we explore two strategies to mitigate conformity effects, i.e., developing enhanced personas and implementing a reflection mechanism. Several interesting findings regarding LLMs' conformity are derived from empirical results and case studies. We hope that these insights can pave the way for more robust and ethically-aligned collaborative AI systems. Our benchmark and code are available at BenchForm.