When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR)

作者: Mahak Agarwal, Divyam Khanna

分类: cs.CL, cs.AI

发布日期: 2025-04-01

备注: 10 pages, 6 figures

💡 一句话要点

提出置信度加权说服覆盖率(CW-POR)，评估LLM辩论中说服力对真理的压制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多智能体辩论 说服力 置信度校准 对抗性测试

📋 核心要点

现有LLM在面对矛盾信息时，易受说服性而非真实性的影响，尤其是在多智能体辩论场景中。
论文提出置信度加权说服覆盖率（CW-POR），综合考虑了LLM被欺骗的频率和置信程度。
实验表明，即使是小型LLM也能通过精心设计的论点，以高置信度推翻真实答案，凸显了校准和对抗测试的重要性。

📝 摘要（中文）

在许多现实场景中，单个大型语言模型（LLM）可能会遇到相互矛盾的主张——一些是准确的，另一些则带有强烈的错误信息——并且必须判断哪个是正确的。我们研究了在单轮多智能体辩论框架中存在的这种风险：一个基于LLM的智能体从TruthfulQA提供事实答案，另一个智能体则极力捍卫一个虚假信息，并且使用相同的LLM架构作为评判者。我们引入了置信度加权说服覆盖率（CW-POR），它不仅捕捉了评判者被欺骗的频率，还捕捉了评判者对错误选择的信任程度。我们在五个开源LLM（3B-14B参数）上进行的实验，系统地改变了智能体的冗长程度（30-300字），结果表明，即使是较小的模型也可以精心设计出具有说服力的论点，从而覆盖真实答案——而且往往具有很高的置信度。这些发现强调了鲁棒校准和对抗性测试的重要性，以防止LLM自信地认可错误信息。

🔬 方法详解

问题定义：论文旨在解决LLM在多智能体辩论环境中，容易被具有说服力的错误信息误导的问题。现有方法主要关注模型的事实准确性，但忽略了模型在面对对抗性论证时的脆弱性，以及模型置信度与正确性的不匹配。这种脆弱性可能导致LLM在实际应用中传播虚假信息。

核心思路：核心思路是引入一个量化指标，即置信度加权说服覆盖率（CW-POR），来评估LLM在辩论中被错误信息说服的程度。CW-POR不仅考虑了LLM判断错误的频率，还考虑了LLM对错误判断的置信度。通过综合考虑这两个因素，可以更全面地评估LLM的鲁棒性和可靠性。

技术框架：整体框架包含三个主要角色：一个提供真实答案的智能体（Truthful Agent），一个提供虚假信息的智能体（Persuasive Agent），以及一个作为评判者的智能体（Judge）。Truthful Agent从TruthfulQA数据集中检索真实答案，Persuasive Agent则生成支持虚假信息的论点。Judge负责评估两个智能体的论点，并选择它认为正确的答案。CW-POR的计算基于Judge选择错误答案的频率和置信度。

关键创新：关键创新在于提出了CW-POR指标，它将LLM的判断错误率与其置信度相结合，从而更准确地反映了LLM在面对对抗性论证时的表现。与传统的准确率指标相比，CW-POR更能捕捉LLM被说服的程度，并揭示LLM校准方面的问题。此外，该研究系统地研究了智能体冗长程度对LLM判断的影响，为理解LLM的说服力机制提供了新的视角。

关键设计：实验中使用了多个开源LLM（3B-14B参数）作为智能体。智能体的冗长程度（30-300字）被系统地改变，以研究其对说服力的影响。CW-POR的计算公式为：CW-POR = (1/N) * Σ confidence_i，其中N是总样本数，confidence_i是Judge选择错误答案时的置信度。研究人员还分析了不同模型在不同冗长程度下的CW-POR值，以评估其鲁棒性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是参数量较小的LLM，也能通过精心设计的论点，以高置信度推翻真实答案。例如，在某些情况下，CW-POR值高达0.8，表明LLM不仅被错误信息说服，而且对其深信不疑。研究还发现，智能体的冗长程度对说服力有显著影响，适当的冗长程度可以显著提高LLM被说服的概率。

🎯 应用场景

该研究成果可应用于提升LLM在信息检索、问答系统和对话系统等领域的可靠性。通过对抗性测试和鲁棒校准，可以减少LLM传播虚假信息的风险。此外，CW-POR指标可用于评估和比较不同LLM的抗干扰能力，指导模型选择和优化。

📄 摘要（原文）

In many real-world scenarios, a single Large Language Model (LLM) may encounter contradictory claims-some accurate, others forcefully incorrect-and must judge which is true. We investigate this risk in a single-turn, multi-agent debate framework: one LLM-based agent provides a factual answer from TruthfulQA, another vigorously defends a falsehood, and the same LLM architecture serves as judge. We introduce the Confidence-Weighted Persuasion Override Rate (CW-POR), which captures not only how often the judge is deceived but also how strongly it believes the incorrect choice. Our experiments on five open-source LLMs (3B-14B parameters), where we systematically vary agent verbosity (30-300 words), reveal that even smaller models can craft persuasive arguments that override truthful answers-often with high confidence. These findings underscore the importance of robust calibration and adversarial testing to prevent LLMs from confidently endorsing misinformation.

When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR)

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理