Context Engineering for Trustworthiness: Rescorla Wagner Steering Under Mixed and Inappropriate Contexts
作者: Rushi Wang, Jiateng Liu, Cheng Qian, Yifan Shen, Yanzhou Pan, Zhaozhuo Xu, Ahmed Abbasi, Heng Ji, Denghui Zhang
分类: cs.CL, cs.AI
发布日期: 2025-09-02
备注: 36 pages, 7 figures
💡 一句话要点
提出RW-Steering,解决LLM在混合不当上下文中易受少量有害信息影响的问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 上下文理解 鲁棒性 有害信息过滤 Rescorla-Wagner模型 微调 对比学习 强化学习
📋 核心要点
- 现有LLM在真实场景中易受混合上下文干扰,少量不当内容即可显著降低回复质量,缺乏有效应对机制。
- 借鉴神经科学的Rescorla-Wagner模型,提出RW-Steering方法,通过两阶段微调使模型识别并忽略不当信号。
- 实验表明,RW-Steering能有效提升LLM在混合上下文中的回复质量,最高提升39.8%,并逆转不良行为曲线。
📝 摘要(中文)
本文研究了大型语言模型(LLMs)在包含相关和不当内容的混合真实世界上下文中,如何处理和优先排序信息,这会带来可靠性风险。为此,作者构建了Poisoned Context Testbed,将查询与包含相关和不当内容的真实世界上下文配对。受动物联想学习的启发,作者将神经科学中的Rescorla-Wagner (RW)模型进行调整,以量化竞争性上下文信号如何影响LLM的输出。结果表明,LLMs倾向于整合上下文中不太普遍的信息。这种倾向在真实场景中是有害的,因为少量的有害内容会显著降低响应质量。为了解决这个问题,作者提出了一种基于两阶段微调的RW-Steering方法,使模型能够在内部识别并忽略不适当的信号。实验表明,RW-Steering能够泛化到不同比例的不当内容,并且最佳微调模型将响应质量提高了39.8%,逆转了不良行为曲线,成为一种鲁棒、通用的上下文工程解决方案,用于提高LLM在实际使用中的安全性。
🔬 方法详解
问题定义:大型语言模型在实际应用中,需要处理包含相关信息和不当信息的混合上下文。现有方法难以有效区分和过滤不当信息,导致模型容易受到少量有害信息的影响,从而降低回复质量。因此,如何提高LLM在混合上下文中的鲁棒性,避免受到不当信息干扰,是本文要解决的核心问题。
核心思路:本文的核心思路是借鉴神经科学中的Rescorla-Wagner (RW)模型,模拟LLM对上下文信息的学习和权重分配过程。RW模型能够量化不同上下文信号对LLM输出的影响。基于此,作者提出RW-Steering方法,通过微调使模型能够识别并降低不当信息的权重,从而提高模型在混合上下文中的鲁棒性。
技术框架:RW-Steering方法包含两个主要阶段:1) RW模型分析:使用调整后的RW模型分析LLM在Poisoned Context Testbed上的行为,量化不同上下文信号的影响。2) RW-Steering微调:基于分析结果,设计两阶段微调策略,使模型能够识别并忽略不当信号。第一阶段,使用对比学习目标,鼓励模型区分相关和不当内容。第二阶段,使用强化学习目标,奖励模型生成高质量的回复,同时惩罚模型受到不当信息影响的行为。
关键创新:本文的关键创新在于:1) 将神经科学的RW模型引入LLM上下文理解研究,为量化上下文信号的影响提供了新视角。2) 提出RW-Steering方法,通过微调使模型能够内部识别和忽略不当信号,无需大量人工标注。3) RW-Steering方法具有良好的泛化能力,能够适应不同比例的不当内容。
关键设计:RW-Steering的关键设计包括:1) Poisoned Context Testbed:构建包含相关和不当内容的混合上下文数据集,用于评估模型性能。2) 对比学习目标:使用InfoNCE损失函数,鼓励模型区分相关和不当内容。3) 强化学习目标:使用奖励函数评估回复质量,并使用惩罚项降低模型受到不当信息影响的程度。4) 微调策略:采用两阶段微调,先使用对比学习目标进行预训练,再使用强化学习目标进行微调。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RW-Steering方法能够显著提高LLM在混合上下文中的回复质量。在Poisoned Context Testbed上,最佳微调模型将回复质量提高了39.8%,并成功逆转了不良行为曲线,表明模型能够有效识别并忽略不当信息。此外,RW-Steering方法在不同比例的不当内容下均表现出良好的泛化能力,优于现有依赖大量监督数据的方法。
🎯 应用场景
该研究成果可应用于各种需要处理混合上下文的LLM应用场景,例如:信息检索、问答系统、内容生成等。通过提高LLM在复杂上下文中的鲁棒性,可以有效减少有害信息的影响,提高回复质量和安全性,从而提升用户体验和信任度。未来,该方法可以扩展到其他类型的有害信息过滤,例如:仇恨言论、虚假新闻等。
📄 摘要(原文)
Incorporating external context can significantly enhance the response quality of Large Language Models (LLMs). However, real-world contexts often mix relevant information with disproportionate inappropriate content, posing reliability risks. How do LLMs process and prioritize mixed context? To study this, we introduce the Poisoned Context Testbed, pairing queries with real-world contexts containing relevant and inappropriate content. Inspired by associative learning in animals, we adapt the Rescorla-Wagner (RW) model from neuroscience to quantify how competing contextual signals influence LLM outputs. Our adapted model reveals a consistent behavioral pattern: LLMs exhibit a strong tendency to incorporate information that is less prevalent in the context. This susceptibility is harmful in real-world settings, where small amounts of inappropriate content can substantially degrade response quality. Empirical evaluations on our testbed further confirm this vulnerability. To tackle this, we introduce RW-Steering, a two-stage finetuning-based approach that enables the model to internally identify and ignore inappropriate signals. Unlike prior methods that rely on extensive supervision across diverse context mixtures, RW-Steering generalizes robustly across varying proportions of inappropriate content. Experiments show that our best fine-tuned model improves response quality by 39.8% and reverses the undesirable behavior curve, establishing RW-Steering as a robust, generalizable context engineering solution for improving LLM safety in real-world use.