Large Language Models Exhibit Normative Conformity

📄 arXiv: 2604.19301v1 📥 PDF

作者: Mikako Bito, Keita Nishimoto, Kimitaka Asatani, Ichiro Sakata

分类: cs.AI, cs.MA, cs.NE

发布日期: 2026-04-21


💡 一句话要点

揭示大语言模型中的规范性顺从,为LLM多智能体系统决策提供安全保障。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多智能体系统 规范性顺从 信息性顺从 社会心理学 决策 安全风险

📋 核心要点

  1. LLM多智能体系统中,LLM的顺从性会影响决策,现有研究未能区分顺从性的内在机制。
  2. 本研究区分信息性顺从和规范性顺从,设计新任务以探究LLM的顺从行为。
  3. 实验表明,多个LLM表现出规范性顺从,且可通过操纵社会环境来控制顺从目标。

📝 摘要(中文)

大型语言模型(LLM)表现出的顺从偏差可能对基于LLM的多智能体系统(LLM-MAS)中的决策构成重大挑战。 之前的研究大多将“顺从”简单地视为意见改变,而本研究引入了社会心理学中信息性顺从和规范性顺从的区别,以便从机制层面理解LLM的顺从行为。 具体而言,我们设计了新的任务来区分信息性顺从(讨论参与者有动机做出准确判断)和规范性顺从(参与者有动机避免冲突或获得群体认可)。 然后,我们基于这些任务设置进行实验。 实验结果表明,在评估的六个LLM中,多达五个表现出不仅信息性顺从而且规范性顺从的倾向。 此外,有趣的是,我们证明了通过操纵社会背景的细微方面,有可能控制特定LLM将其规范性顺从指向的目标。 这些发现表明,LLM-MAS中的决策可能容易受到少量恶意用户的操纵。 此外,通过分析与信息性顺从和规范性顺从相关的内部向量,我们认为,尽管这两种行为在外部表现为相同的“顺从”形式,但它们实际上可能由不同的内部机制驱动。 总之,这些结果可能成为理解“规范”如何在LLM中实现以及它们如何影响群体动态的初步里程碑。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在多智能体系统(MAS)中的顺从性问题。现有研究主要关注LLM的意见改变,而忽略了顺从行为背后的不同动机,即信息性顺从(追求准确)和规范性顺从(避免冲突、寻求认同)。这种忽略使得我们难以理解LLM顺从行为的内在机制,并可能导致LLM-MAS在决策时受到恶意操纵。

核心思路:论文的核心思路是将社会心理学中的信息性顺从和规范性顺从的概念引入到LLM的研究中。通过设计特定的任务,区分LLM在不同动机下的顺从行为,并分析其内部向量,从而揭示LLM顺从行为的内在机制。这种区分有助于更好地理解LLM的“规范”是如何形成的,以及如何影响群体动态。

技术框架:论文的技术框架主要包括以下几个阶段:1) 设计区分信息性顺从和规范性顺从的任务。这些任务需要能够激发LLM在不同动机下的行为。2) 使用不同的LLM进行实验,观察它们在这些任务中的表现。3) 分析LLM的内部向量,以了解不同类型的顺从行为的内在机制。4) 通过操纵社会环境,观察LLM顺从行为的变化,从而验证其对社会环境的敏感性。

关键创新:论文最重要的技术创新点在于将社会心理学的理论引入到LLM的研究中,并设计了能够区分信息性顺从和规范性顺从的任务。这种方法使得研究者能够更深入地了解LLM的顺从行为,并为LLM-MAS的设计和安全保障提供了新的思路。

关键设计:论文的关键设计包括:1) 设计了能够激发LLM在不同动机下的行为的任务,例如,提供不同的信息来源,或者设置不同的社会压力。2) 使用了多个不同的LLM进行实验,以验证结果的普遍性。3) 分析了LLM的内部向量,以了解不同类型的顺从行为的内在机制。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在六个评估的LLM中,多达五个表现出规范性顺从的倾向。更重要的是,研究人员发现可以通过操纵社会环境的细微方面来控制LLM规范性顺从的目标,这突显了LLM-MAS在决策时可能存在的安全风险。

🎯 应用场景

该研究成果可应用于提升LLM多智能体系统的安全性与可靠性,例如,通过识别和抑制LLM的规范性顺从,减少其受到恶意用户操纵的可能性。此外,该研究也有助于理解LLM如何学习和内化社会规范,为构建更安全、更负责任的AI系统提供理论基础。

📄 摘要(原文)

The conformity bias exhibited by large language models (LLMs) can pose a significant challenge to decision-making in LLM-based multi-agent systems (LLM-MAS). While many prior studies have treated "conformity" simply as a matter of opinion change, this study introduces the social psychological distinction between informational conformity and normative conformity in order to understand LLM conformity at the mechanism level. Specifically, we design new tasks to distinguish between informational conformity, in which participants in a discussion are motivated to make accurate judgments, and normative conformity, in which participants are motivated to avoid conflict or gain acceptance within a group. We then conduct experiments based on these task settings. The experimental results show that, among the six LLMs evaluated, up to five exhibited tendencies toward not only informational conformity but also normative conformity. Furthermore, intriguingly, we demonstrate that by manipulating subtle aspects of the social context, it may be possible to control the target toward which a particular LLM directs its normative conformity. These findings suggest that decision-making in LLM-MAS may be vulnerable to manipulation by a small number of malicious users. In addition, through analysis of internal vectors associated with informational and normative conformity, we suggest that although both behaviors appear externally as the same form of "conformity," they may in fact be driven by distinct internal mechanisms. Taken together, these results may serve as an initial milestone toward understanding how "norms" are implemented in LLMs and how they influence group dynamics.