How Large Language Models Balance Internal Knowledge with User and Document Assertions
作者: Shuowei Li, Haoxin Li, Wenda Chu, Yi Fang
分类: cs.CL
发布日期: 2026-04-24
备注: Findings of ACL 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出三源交互框架,评估大语言模型在用户、文档和内部知识间的平衡能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 知识冲突 信息源平衡 用户断言 文档断言
📋 核心要点
- 现有研究主要关注LLM在二元知识冲突场景下的表现,忽略了用户、文档和模型自身知识三者并存的复杂交互环境。
- 论文提出了一个三源交互框架,用于系统评估LLM在平衡用户断言、文档断言和内部知识方面的能力。
- 实验结果表明,LLM通常更依赖文档信息,且容易受到有害信息的影响;通过微调可以提升模型的辨别能力。
📝 摘要(中文)
大型语言模型(LLM)在实际应用中,如RAG或聊天系统,需要在内部参数知识与外部信息(如用户观点和检索文档内容)之间进行平衡。模型可靠处理这些信息源的能力对系统安全性至关重要。以往关于知识冲突和谄媚的研究主要集中在二元冲突范式,即参数知识与文档或用户之间的冲突,忽略了三者同时存在的交互环境。为了填补这一空白,我们提出了一个三源交互框架,并系统地评估了来自3个系列的27个LLM。我们的研究结果揭示了一般模式:大多数模型更依赖文档断言而非用户断言,并且这种偏好在后训练中得到加强。此外,我们的行为分析表明,大多数模型容易受影响,无法有效区分有益和有害的外部信息。为了解决这个问题,我们证明了在多样化的源交互数据上进行微调可以显著提高模型的辨别能力。简而言之,我们的工作为开发能够有效且可靠地整合多个信息源的可信LLM铺平了道路。
🔬 方法详解
问题定义:现有的大语言模型在实际应用中,需要同时考虑自身的内部知识、用户的观点以及外部文档提供的信息。以往的研究主要关注模型在内部知识与单一外部信息源(用户或文档)冲突时的表现,忽略了三者同时存在并相互影响的复杂场景。这种简化使得我们难以全面评估模型在真实世界中的可靠性和安全性。因此,需要一个更全面的框架来评估模型在多源信息交互下的行为。
核心思路:论文的核心思路是构建一个三源交互框架,该框架允许同时评估LLM对用户断言、文档断言和自身内部知识的依赖程度。通过系统地改变这三种信息源之间的关系(例如,一致、冲突),可以观察模型如何权衡和整合这些信息,从而揭示其潜在的偏见和弱点。这种方法能够更真实地模拟实际应用场景,并为改进模型的可靠性提供指导。
技术框架:该研究的技术框架主要包括以下几个部分:1) 构建包含用户断言、文档断言和模型内部知识的数据集;2) 设计实验方案,系统性地改变三种信息源之间的关系,例如,让用户断言与文档断言一致,但与模型内部知识冲突;3) 使用这些数据来评估多个LLM,并分析它们的行为模式;4) 通过微调来提高模型在多源信息交互下的辨别能力。
关键创新:该研究的关键创新在于提出了一个三源交互框架,打破了以往研究中二元冲突的局限性。该框架能够更全面地评估LLM在复杂信息环境下的行为,揭示其潜在的偏见和弱点。此外,该研究还通过实验验证了微调可以有效提高模型在多源信息交互下的辨别能力。
关键设计:在数据集构建方面,需要精心设计用户断言和文档断言,使其与模型的内部知识存在不同程度的一致性或冲突。在实验设计方面,需要系统性地改变三种信息源之间的关系,并记录模型的输出。在微调方面,需要选择合适的损失函数和训练策略,以提高模型在多源信息交互下的辨别能力。具体的参数设置和网络结构选择取决于所使用的LLM。
🖼️ 关键图片
📊 实验亮点
实验结果表明,大多数LLM更倾向于依赖文档断言而非用户断言,且这种偏好在后训练中得到加强。同时,模型容易受到有害信息的影响。通过在多样化的源交互数据上进行微调,可以显著提高模型的辨别能力,使其能够更有效地整合多个信息源。
🎯 应用场景
该研究成果可应用于提升RAG系统和聊天机器人的可靠性和安全性。通过更好地理解和控制LLM在多源信息交互中的行为,可以减少模型产生错误或有害信息的风险,提高用户信任度。此外,该研究也为开发更可信赖的人工智能系统提供了新的思路。
📄 摘要(原文)
Large language models (LLMs) often need to balance their internal parametric knowledge with external information, such as user beliefs and content from retrieved documents, in real-world scenarios like RAG or chat-based systems. A model's ability to reliably process these sources is key to system safety. Previous studies on knowledge conflict and sycophancy are limited to a binary conflict paradigm, primarily exploring conflicts between parametric knowledge and either a document or a user, but ignoring the interactive environment where all three sources exist simultaneously. To fill this gap, we propose a three-source interaction framework and systematically evaluate 27 LLMs from 3 families on 2 datasets. Our findings reveal general patterns: most models rely more on document assertions than user assertions, and this preference is reinforced by post-training. Furthermore, our behavioral analysis shows that most models are impressionable, unable to effectively discriminate between helpful and harmful external information. To address this, we demonstrate that fine-tuning on diverse source interaction data can significantly increase a model's discrimination abilities. In short, our work paves the way for developing trustworthy LLMs that can effectively and reliably integrate multiple sources of information. Code is available at https://github.com/shuowl/llm-source-balancing.