Conflict-Aware Soft Prompting for Retrieval-Augmented Generation
作者: Eunseong Choi, June Park, Hyeri Lee, Jongwuk Lee
分类: cs.CL, cs.AI
发布日期: 2025-08-21 (更新: 2025-09-26)
备注: Accepted to EMNLP 2025; 15 pages; 5 figures, 11 tables; Code available at https://github.com/eunseongc/CARE
💡 一句话要点
提出CARE模型,通过冲突感知软提示缓解RAG中的上下文-记忆冲突问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 上下文-记忆冲突 软提示 冲突感知 大型语言模型
📋 核心要点
- RAG系统在检索到的上下文与LLM自身知识冲突时表现不佳,导致生成结果不可靠。
- CARE模型通过引入上下文评估器,利用软提示学习区分可靠和不可靠的上下文,引导LLM进行更合理的推理。
- 实验结果表明,CARE模型在问答和事实核查任务上取得了显著的性能提升,验证了其有效性。
📝 摘要(中文)
检索增强生成(RAG)通过将外部知识融入到大型语言模型(LLM)的输入提示中,增强了LLM的能力。然而,当检索到的上下文与LLM的参数知识相矛盾时,RAG常常无法解决不正确的外部上下文和正确的参数知识之间的冲突,即上下文-记忆冲突。为了解决这个问题,我们提出了冲突感知检索增强生成(CARE),它由一个上下文评估器和一个基础LLM组成。上下文评估器从原始上下文token中编码紧凑的记忆token嵌入。通过基于grounded/对抗性软提示,上下文评估器被训练来辨别不可靠的上下文,并捕获一个指导信号,该信号将推理导向更可靠的知识来源。大量的实验表明,CARE有效地缓解了上下文-记忆冲突,在QA和事实核查基准测试中平均性能提升了5.0%,为可信和自适应的RAG系统建立了一个有希望的方向。
🔬 方法详解
问题定义:论文旨在解决检索增强生成(RAG)中存在的上下文-记忆冲突问题。当检索到的外部上下文与大型语言模型(LLM)自身存储的参数知识相矛盾时,LLM难以判断哪个信息源更可靠,从而导致生成错误或不准确的答案。现有方法通常无法有效区分和利用这些冲突信息,导致RAG系统的性能下降。
核心思路:论文的核心思路是训练一个上下文评估器,使其能够识别和评估检索到的上下文的可靠性。该评估器通过学习紧凑的记忆token嵌入,并利用软提示技术,生成一个指导信号,引导LLM在生成答案时更加依赖可靠的知识来源,从而缓解上下文-记忆冲突。
技术框架:CARE模型包含两个主要模块:上下文评估器和基础LLM。首先,上下文评估器接收原始上下文token作为输入,并将其编码为紧凑的记忆token嵌入。然后,通过grounded/对抗性软提示训练,评估器学习区分可靠和不可靠的上下文,并生成一个指导信号。最后,基础LLM结合检索到的上下文和评估器提供的指导信号,生成最终的答案。
关键创新:该论文的关键创新在于引入了冲突感知的软提示机制。传统的RAG方法通常直接将检索到的上下文输入LLM,而忽略了上下文的可靠性。CARE模型通过训练上下文评估器,显式地评估上下文的可靠性,并利用软提示将评估结果融入到LLM的输入中,从而使LLM能够更好地利用可靠的知识来源。
关键设计:上下文评估器使用Transformer编码器来生成记忆token嵌入。Grounded软提示通过最小化LLM生成正确答案的损失来训练评估器,而对抗性软提示则通过最大化LLM生成错误答案的损失来训练评估器。这两种训练方式共同促进评估器学习区分可靠和不可靠的上下文。论文还探索了不同的软提示长度和位置,以优化模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CARE模型在多个QA和事实核查基准测试中取得了显著的性能提升。例如,在某些数据集上,CARE模型相比于基线RAG模型,平均性能提升了5.0%。此外,消融实验验证了上下文评估器和软提示机制的有效性,证明了CARE模型能够有效地缓解上下文-记忆冲突。
🎯 应用场景
该研究成果可应用于各种需要知识增强的自然语言处理任务,例如问答系统、对话生成、事实核查等。通过提高RAG系统的可靠性和准确性,可以提升用户体验,并减少错误信息的传播。未来,该方法可以扩展到其他知识源,例如知识图谱,从而构建更加强大和可信的知识增强型AI系统。
📄 摘要(原文)
Retrieval-augmented generation (RAG) enhances the capabilities of large language models (LLMs) by incorporating external knowledge into their input prompts. However, when the retrieved context contradicts the LLM's parametric knowledge, it often fails to resolve the conflict between incorrect external context and correct parametric knowledge, known as context-memory conflict. To tackle this problem, we introduce Conflict-Aware REtrieval-Augmented Generation (CARE), consisting of a context assessor and a base LLM. The context assessor encodes compact memory token embeddings from raw context tokens. Through grounded/adversarial soft prompting, the context assessor is trained to discern unreliable context and capture a guidance signal that directs reasoning toward the more reliable knowledge source. Extensive experiments show that CARE effectively mitigates context-memory conflicts, leading to an average performance gain of 5.0\% on QA and fact-checking benchmarks, establishing a promising direction for trustworthy and adaptive RAG systems.