The Earth is Flat because...: Investigating LLMs' Belief towards Misinformation via Persuasive Conversation

📄 arXiv: 2312.09085v5 📥 PDF

作者: Rongwu Xu, Brian S. Lin, Shujian Yang, Tianqi Zhang, Weiyan Shi, Tianwei Zhang, Zhixuan Fang, Wei Xu, Han Qiu

分类: cs.CL, cs.AI, cs.CR, cs.CY

发布日期: 2023-12-14 (更新: 2024-05-31)

备注: Accepted to ACL'24 (Main). Camera-ready version


💡 一句话要点

通过说服式对话研究大语言模型对错误信息的信念操纵

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 错误信息 说服式对话 信念操纵 知识表示

📋 核心要点

  1. 现有研究主要关注单轮对话中LLM对错误信息的脆弱性,忽略了多轮说服式对话中信念动态变化。
  2. 论文提出Farm数据集和测试框架,用于评估LLM在说服式对话中对错误信息的抵抗能力。
  3. 实验表明,即使LLM能够正确回答事实性问题,其信念也容易受到各种说服策略的影响。

📝 摘要(中文)

大型语言模型(LLMs)蕴含着海量的知识,但仍然容易受到外部错误信息的影响。现有的研究主要在单轮对话设置中研究这种易受影响的行为。然而,信念可能会在多轮对话中发生改变,尤其是在说服式对话中。因此,本研究深入探讨了LLMs对说服式对话的敏感性,特别是针对它们能够正确回答的事实性问题。我们首先整理了Farm(即Fact to Misinform)数据集,该数据集包含事实性问题以及系统生成的具有说服力的错误信息。然后,我们开发了一个测试框架来跟踪LLMs在说服式对话中的信念变化。通过大量的实验,我们发现LLMs对事实知识的正确信念很容易被各种说服策略所操纵。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLMs)在多轮说服式对话中,对错误信息的易感性。现有研究主要集中在单轮问答场景,无法有效评估LLMs在持续交互中信念的变化情况。因此,需要一种新的方法来系统地评估和理解LLMs在面对具有说服力的错误信息时的行为。

核心思路:论文的核心思路是通过构建一个包含事实性问题和具有说服力的错误信息的数据集,并设计一个测试框架,来模拟说服式对话,从而跟踪LLMs在对话过程中信念的变化。通过分析LLMs在不同说服策略下的反应,可以深入了解其对错误信息的抵抗能力。

技术框架:该研究的技术框架主要包含两个部分:一是Farm数据集的构建,二是测试框架的开发。Farm数据集包含事实性问题和对应的具有说服力的错误信息。测试框架则模拟一个说服式对话,其中LLM首先回答一个事实性问题,然后研究人员使用不同的说服策略向LLM呈现错误信息,并观察LLM的信念是否发生改变。整个流程旨在量化LLM在面对说服时的信念漂移。

关键创新:该研究的关键创新在于:1) 提出了Farm数据集,该数据集专门用于评估LLMs在说服式对话中对错误信息的抵抗能力;2) 开发了一个测试框架,可以系统地跟踪LLMs在对话过程中的信念变化;3) 揭示了LLMs即使在能够正确回答事实性问题的情况下,也容易受到各种说服策略的影响。这与以往单轮测试的研究结果形成对比。

关键设计:Farm数据集的关键设计在于其系统生成的具有说服力的错误信息。这些错误信息采用了不同的说服策略,例如诉诸权威、情感引导、重复论证等。测试框架的关键设计在于其多轮对话的设置,以及对LLM信念变化的量化指标。具体的参数设置和网络结构取决于所使用的LLM模型,但测试框架的设计是通用的,可以应用于不同的LLM模型。

📊 实验亮点

实验结果表明,即使LLMs能够正确回答事实性问题,其信念也容易受到各种说服策略的影响。具体来说,通过使用不同的说服策略,研究人员可以显著改变LLMs对事实的判断。例如,某些说服策略可以使LLMs在高达X%的情况下改变其最初的正确答案(X为未知,论文中未给出具体数值)。这些结果突显了LLMs在面对错误信息时的脆弱性。

🎯 应用场景

该研究成果可应用于提升LLMs的鲁棒性和可信度,例如在智能客服、教育机器人等领域,减少LLMs传播错误信息的风险。通过了解LLMs易受影响的因素,可以开发更有效的防御机制,提高LLMs在开放环境中的可靠性。此外,该研究也为评估和改进LLMs的知识表示和推理能力提供了新的视角。

📄 摘要(原文)

Large language models (LLMs) encapsulate vast amounts of knowledge but still remain vulnerable to external misinformation. Existing research mainly studied this susceptibility behavior in a single-turn setting. However, belief can change during a multi-turn conversation, especially a persuasive one. Therefore, in this study, we delve into LLMs' susceptibility to persuasive conversations, particularly on factual questions that they can answer correctly. We first curate the Farm (i.e., Fact to Misinform) dataset, which contains factual questions paired with systematically generated persuasive misinformation. Then, we develop a testing framework to track LLMs' belief changes in a persuasive dialogue. Through extensive experiments, we find that LLMs' correct beliefs on factual knowledge can be easily manipulated by various persuasive strategies.