When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR)

📄 arXiv: 2504.00374v1 📥 PDF

作者: Mahak Agarwal, Divyam Khanna

分类: cs.CL, cs.AI

发布日期: 2025-04-01

备注: 10 pages, 6 figures


💡 一句话要点

提出置信度加权说服覆盖率(CW-POR),评估LLM辩论中说服力对真理的压制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多智能体辩论 说服力 置信度校准 对抗性测试

📋 核心要点

  1. 现有LLM在面对矛盾信息时,易受说服性而非真实性的影响,尤其是在多智能体辩论场景中。
  2. 论文提出置信度加权说服覆盖率(CW-POR),综合考虑了LLM被欺骗的频率和置信程度。
  3. 实验表明,即使是小型LLM也能通过精心设计的论点,以高置信度推翻真实答案,凸显了校准和对抗测试的重要性。

📝 摘要(中文)

在许多现实场景中,单个大型语言模型(LLM)可能会遇到相互矛盾的主张——一些是准确的,另一些则带有强烈的错误信息——并且必须判断哪个是正确的。我们研究了在单轮多智能体辩论框架中存在的这种风险:一个基于LLM的智能体从TruthfulQA提供事实答案,另一个智能体则极力捍卫一个虚假信息,并且使用相同的LLM架构作为评判者。我们引入了置信度加权说服覆盖率(CW-POR),它不仅捕捉了评判者被欺骗的频率,还捕捉了评判者对错误选择的信任程度。我们在五个开源LLM(3B-14B参数)上进行的实验,系统地改变了智能体的冗长程度(30-300字),结果表明,即使是较小的模型也可以精心设计出具有说服力的论点,从而覆盖真实答案——而且往往具有很高的置信度。这些发现强调了鲁棒校准和对抗性测试的重要性,以防止LLM自信地认可错误信息。

🔬 方法详解

问题定义:论文旨在解决LLM在多智能体辩论环境中,容易被具有说服力的错误信息误导的问题。现有方法主要关注模型的事实准确性,但忽略了模型在面对对抗性论证时的脆弱性,以及模型置信度与正确性的不匹配。这种脆弱性可能导致LLM在实际应用中传播虚假信息。

核心思路:核心思路是引入一个量化指标,即置信度加权说服覆盖率(CW-POR),来评估LLM在辩论中被错误信息说服的程度。CW-POR不仅考虑了LLM判断错误的频率,还考虑了LLM对错误判断的置信度。通过综合考虑这两个因素,可以更全面地评估LLM的鲁棒性和可靠性。

技术框架:整体框架包含三个主要角色:一个提供真实答案的智能体(Truthful Agent),一个提供虚假信息的智能体(Persuasive Agent),以及一个作为评判者的智能体(Judge)。Truthful Agent从TruthfulQA数据集中检索真实答案,Persuasive Agent则生成支持虚假信息的论点。Judge负责评估两个智能体的论点,并选择它认为正确的答案。CW-POR的计算基于Judge选择错误答案的频率和置信度。

关键创新:关键创新在于提出了CW-POR指标,它将LLM的判断错误率与其置信度相结合,从而更准确地反映了LLM在面对对抗性论证时的表现。与传统的准确率指标相比,CW-POR更能捕捉LLM被说服的程度,并揭示LLM校准方面的问题。此外,该研究系统地研究了智能体冗长程度对LLM判断的影响,为理解LLM的说服力机制提供了新的视角。

关键设计:实验中使用了多个开源LLM(3B-14B参数)作为智能体。智能体的冗长程度(30-300字)被系统地改变,以研究其对说服力的影响。CW-POR的计算公式为:CW-POR = (1/N) * Σ confidence_i,其中N是总样本数,confidence_i是Judge选择错误答案时的置信度。研究人员还分析了不同模型在不同冗长程度下的CW-POR值,以评估其鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是参数量较小的LLM,也能通过精心设计的论点,以高置信度推翻真实答案。例如,在某些情况下,CW-POR值高达0.8,表明LLM不仅被错误信息说服,而且对其深信不疑。研究还发现,智能体的冗长程度对说服力有显著影响,适当的冗长程度可以显著提高LLM被说服的概率。

🎯 应用场景

该研究成果可应用于提升LLM在信息检索、问答系统和对话系统等领域的可靠性。通过对抗性测试和鲁棒校准,可以减少LLM传播虚假信息的风险。此外,CW-POR指标可用于评估和比较不同LLM的抗干扰能力,指导模型选择和优化。

📄 摘要(原文)

In many real-world scenarios, a single Large Language Model (LLM) may encounter contradictory claims-some accurate, others forcefully incorrect-and must judge which is true. We investigate this risk in a single-turn, multi-agent debate framework: one LLM-based agent provides a factual answer from TruthfulQA, another vigorously defends a falsehood, and the same LLM architecture serves as judge. We introduce the Confidence-Weighted Persuasion Override Rate (CW-POR), which captures not only how often the judge is deceived but also how strongly it believes the incorrect choice. Our experiments on five open-source LLMs (3B-14B parameters), where we systematically vary agent verbosity (30-300 words), reveal that even smaller models can craft persuasive arguments that override truthful answers-often with high confidence. These findings underscore the importance of robust calibration and adversarial testing to prevent LLMs from confidently endorsing misinformation.