Exploring the Impact of Instruction-Tuning on LLM's Susceptibility to Misinformation

📄 arXiv: 2507.18203v1 📥 PDF

作者: Kyubeen Han, Junseo Jang, Hongjin Kim, Geunyeong Jeong, Harksoo Kim

分类: cs.CL

发布日期: 2025-07-24

备注: ACL 2025 Main Accepted


💡 一句话要点

研究表明指令微调提升LLM可用性的同时,显著增加其对虚假信息的接受度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 指令微调 虚假信息 信息安全 提示工程

📋 核心要点

  1. 现有研究表明LLM易受外部信息影响,但缺乏对指令微调如何直接影响其接受虚假信息倾向的研究。
  2. 该研究通过实验分析,揭示了指令微调会显著增加LLM对用户提供的虚假信息的接受程度。
  3. 研究进一步探讨了提示结构、信息长度和系统提示等因素对LLM接受虚假信息的影响。

📝 摘要(中文)

指令微调增强了大型语言模型(LLMs)更准确地遵循用户指令的能力,提高了可用性并减少了有害输出。然而,这个过程可能会增加模型对用户输入的依赖性,从而可能导致对虚假信息的无过滤接受和幻觉的产生。现有研究主要强调LLMs容易接受与其参数知识相矛盾的外部信息,但关于指令微调对这种现象的直接影响的研究很少。本研究探讨了指令微调对LLM易受虚假信息影响的程度。分析表明,经过指令微调的LLMs在用户提供虚假信息时,更容易接受这些信息。与基础模型的比较表明,指令微调增加了对用户提供信息的依赖,将易受影响的角色从助手转移到用户。此外,还探讨了影响虚假信息易感性的其他因素,例如用户在提示结构中的角色、虚假信息的长度以及系统提示中是否存在警告。研究结果强调需要系统的方法来减轻指令微调的意外后果,并提高LLMs在实际应用中的可靠性。

🔬 方法详解

问题定义:论文旨在研究指令微调对大型语言模型(LLMs)接受虚假信息的影响。现有方法主要关注LLM对与其自身知识相悖的外部信息的敏感性,而忽略了指令微调这一关键步骤可能带来的影响。指令微调虽然提升了LLM的可用性,但也可能使其过度依赖用户输入,从而更容易接受虚假信息。

核心思路:论文的核心思路是通过对比指令微调后的LLM与基础模型,分析它们在面对用户提供的虚假信息时的反应差异。通过设计特定的实验,评估指令微调是否会增加LLM对用户输入的依赖,从而提高其接受虚假信息的可能性。此外,还探讨了不同提示结构、信息长度和系统提示等因素的影响。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择合适的LLM模型作为基础模型;2) 对基础模型进行指令微调,得到指令微调后的模型;3) 设计包含虚假信息的提示,并将其输入到基础模型和指令微调后的模型中;4) 分析两个模型对虚假信息的反应,例如是否接受、是否生成包含虚假信息的内容等;5) 评估不同因素(如提示结构、信息长度等)对模型接受虚假信息的影响。

关键创新:该研究的关键创新在于首次系统性地研究了指令微调对LLM接受虚假信息的影响。之前的研究主要关注LLM对外部信息的敏感性,而忽略了指令微调这一重要环节。该研究揭示了指令微调可能会增加LLM对用户输入的依赖,从而提高其接受虚假信息的可能性。

关键设计:研究的关键设计包括:1) 精心设计的包含虚假信息的提示,确保提示的合理性和迷惑性;2) 对比基础模型和指令微调后模型的反应,量化指令微调的影响;3) 系统性地评估不同因素(如提示结构、信息长度等)对模型接受虚假信息的影响;4) 使用合适的评估指标来衡量模型接受虚假信息的程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过指令微调的LLM比基础模型更容易接受用户提供的虚假信息,这表明指令微调增加了模型对用户输入的依赖性。研究还发现,用户在提示结构中的角色、虚假信息的长度以及系统提示中是否存在警告等因素都会影响LLM对虚假信息的接受程度。这些发现为设计更安全的LLM提供了重要的指导。

🎯 应用场景

该研究成果可应用于提升LLM在信息检索、问答系统、内容生成等领域的安全性与可靠性。通过了解指令微调对LLM虚假信息易感性的影响,可以开发更有效的防御机制,例如在系统提示中加入警告信息,或设计更鲁棒的指令微调方法,从而减少LLM生成错误或误导性信息的风险。这对于构建可信赖的人工智能系统至关重要。

📄 摘要(原文)

Instruction-tuning enhances the ability of large language models (LLMs) to follow user instructions more accurately, improving usability while reducing harmful outputs. However, this process may increase the model's dependence on user input, potentially leading to the unfiltered acceptance of misinformation and the generation of hallucinations. Existing studies primarily highlight that LLMs are receptive to external information that contradict their parametric knowledge, but little research has been conducted on the direct impact of instruction-tuning on this phenomenon. In our study, we investigate the impact of instruction-tuning on LLM's susceptibility to misinformation. Our analysis reveals that instruction-tuned LLMs are significantly more likely to accept misinformation when it is presented by the user. A comparison with base models shows that instruction-tuning increases reliance on user-provided information, shifting susceptibility from the assistant role to the user role. Furthermore, we explore additional factors influencing misinformation susceptibility, such as the role of the user in prompt structure, misinformation length, and the presence of warnings in the system prompt. Our findings underscore the need for systematic approaches to mitigate unintended consequences of instruction-tuning and enhance the reliability of LLMs in real-world applications.