Easier to Mislead Than to Correct: Harmful and Beneficial Revision in LLM Conformity
作者: Jiaming Qu, Lucheng fu, Yibo Hu
分类: cs.CL, cs.AI
发布日期: 2026-06-01
💡 一句话要点
研究表明LLM在群体决策中更易被误导而非纠正,需谨慎对待群体答案。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 多智能体系统 群体决策 从众效应 有害修正
📋 核心要点
- 大型语言模型在多智能体系统中易受群体意见影响,存在盲目从众的风险,可能导致错误。
- 通过模拟同伴响应,研究模型在不同社会线索下的修正行为,区分有益和有害的修正。
- 实验表明,LLM更容易被群体误导,权威标签会加剧这一现象,通用推理干预效果不佳。
📝 摘要(中文)
大型语言模型越来越多地应用于多智能体系统中,在这些系统中,它们会观察并响应其他智能体的答案。一个关键风险是趋同:模型可能仅仅因为其他人同意不同的答案而放弃自己的答案。先前的研究表明,LLM通常会修改答案以趋向多数答案,但这些修改究竟是更有助于纠正错误,还是会引入新的错误,目前尚不清楚。在本文中,我们进行了一项受控研究,其中LLM首先回答一个问题,然后查看模拟的同伴响应,最后做出最终决定。我们操纵了两个社会线索:共识结构和分配给同伴的权威标签,并衡量它们如何影响有益和有害的修改。在四个开源LLM和七个QA数据集上,我们发现同伴的赞同使得误导最初正确的模型比纠正最初错误的模型容易得多。权威标签使模型更有可能选择被认可的答案,无论它是否正确。更令人担忧的是,诸如思维链和反思等通用推理干预措施并不能可靠地减少有害修改,同时保留有益修改。这些发现表明,多智能体LLM系统应该验证同伴的答案,而不是简单地聚合它们。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)在多智能体环境中,面对群体意见时,是否更容易被误导(harmful revision)而非被纠正(beneficial revision)。现有方法主要关注LLM是否会趋同于多数意见,但忽略了这种趋同行为可能带来的负面影响,即原本正确的答案被错误答案所取代。
核心思路:论文的核心思路是通过控制实验,模拟LLM与“同伴”交互的场景,并操纵不同的社会线索(如共识结构和权威标签),来观察LLM在修正答案时的行为。通过区分有益修正和有害修正,量化LLM受群体影响的程度以及这种影响的性质。
技术框架:论文的技术框架主要包含以下几个阶段: 1. 初始回答阶段:LLM首先独立回答问题。 2. 同伴响应模拟阶段:模拟生成“同伴”的回答,并控制同伴回答的共识结构(多数意见是否正确)和权威标签(同伴是否被标记为权威)。 3. 修正阶段:LLM在看到同伴的回答后,有机会修改自己的初始答案。 4. 评估阶段:评估LLM的修正行为是有益的(纠正了错误)还是有害的(引入了错误)。
关键创新:论文最重要的技术创新点在于,它不仅仅关注LLM是否会趋同于多数意见,而是进一步区分了趋同行为的性质,即区分了有益修正和有害修正。这使得研究能够更深入地理解LLM在群体决策中的行为模式。此外,论文还考察了通用推理干预(如思维链和反思)对减少有害修正的效果,发现这些干预措施并不能可靠地减少有害修正。
关键设计:论文的关键设计包括: 1. 社会线索的操纵:通过控制同伴回答的共识结构和权威标签,来模拟不同的社会环境。 2. 数据集的选择:使用了多个QA数据集,以保证研究结果的泛化性。 3. LLM的选择:使用了多个开源LLM,以考察不同模型的行为差异。 4. 评估指标的设计:设计了专门的评估指标,用于区分有益修正和有害修正。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM更容易被群体误导,而非被纠正。具体来说,同伴的赞同使得误导最初正确的模型比纠正最初错误的模型容易得多。权威标签会进一步加剧这一现象,使得模型更倾向于选择被认可的答案,无论其是否正确。此外,通用推理干预措施并不能有效减少有害修正,同时保留有益修正。
🎯 应用场景
该研究成果可应用于多智能体协作系统、在线教育、医疗诊断等领域。通过更好地理解LLM在群体决策中的行为模式,可以设计更可靠、更安全的智能体系统,避免LLM受到错误信息的影响,提高决策质量。未来的研究可以探索更有效的干预措施,以减少有害修正,同时保留有益修正。
📄 摘要(原文)
Large language models are increasingly used in multi-agent systems, where they see and respond to other agents' answers. A key risk is conformity: a model may abandon its own answer simply because others agree on a different one. Prior studies show that LLMs often revise toward a majority answer, but it remains unclear whether these revisions help correct mistakes as often as they introduce new errors. In this paper, we conduct a controlled study in which an LLM first answers a question, then sees simulated peer responses before making a final decision. We manipulate two social cues: consensus structure and authority labels assigned to peers, and measure how they influence beneficial and harmful revisions. Across four open-weight LLMs and seven QA datasets, we find that peer agreement makes it much easier to mislead initially correct models than to correct initially wrong ones. Authority labels make models more likely to choose the endorsed answer, regardless of whether it is correct. More concerningly, generic reasoning interventions such as chain-of-thought and reflection do not reliably reduce harmful revision while preserving beneficial revision. These findings suggest that multi-agent LLM systems should verify peer answers rather than simply aggregate them.