When Refusals Fail: Unstable Safety Mechanisms in Long-Context LLM Agents

📄 arXiv: 2512.02445v1 📥 PDF

作者: Tsimur Hadeliya, Mohammad Ali Jauhar, Nidhi Sakpal, Diogo Cruz

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-12-02

备注: 12 pages, 11 figures. Accepted at AAAI 2026 TrustAgent Workshop


💡 一句话要点

长文本LLM Agent安全性研究:揭示上下文长度对拒绝响应和任务性能的负面影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长上下文LLM LLM Agent 安全性评估 拒绝响应 上下文长度

📋 核心要点

  1. 现有工作主要关注长上下文LLM的评估,而对Agent设置(尤其是能力和安全性)的探索相对不足,存在研究空白。
  2. 该研究通过实验发现,LLM Agent在长上下文中表现出不稳定的安全性,拒绝响应和任务性能会随上下文变化而剧烈波动。
  3. 实验表明,长上下文窗口模型在处理较长上下文时,性能会显著下降,拒绝响应也变得不可预测,对安全性构成潜在威胁。

📝 摘要(中文)

本文研究了长上下文大型语言模型(LLM)Agent在复杂或长时程问题中的安全性问题。研究发现,LLM Agent对上下文的长度、类型和位置非常敏感,在任务性能和拒绝执行有害请求方面表现出意想不到且不一致的变化。即使是具有100万到200万token上下文窗口的模型,在10万token时就已出现严重性能下降,良性和有害任务的性能下降均超过50%。拒绝率也出现不可预测的变化:GPT-4.1-nano的拒绝率从约5%增加到约40%,而Grok 4 Fast的拒绝率在20万token时从约80%降低到约10%。这项工作揭示了在较长上下文中运行的Agent的潜在安全问题,并对当前评估LLM Agent在长多步任务中的安全性的指标和范式提出了质疑。特别是,LLM Agent的结果表明,与先前对LLM在类似标准上的评估相比,能力和安全性能都存在显着差异。

🔬 方法详解

问题定义:现有方法在评估长上下文LLM时,较少关注Agent设置下的能力和安全性。尤其是在长多步任务中,LLM Agent的性能和安全性是否会受到上下文长度、类型和位置的影响,以及现有的评估指标是否仍然适用,这些问题缺乏深入研究。现有方法无法有效评估长上下文Agent的安全性,存在潜在风险。

核心思路:本文的核心思路是通过构建一系列实验,系统性地研究长上下文对LLM Agent性能和安全性的影响。通过控制上下文的长度、类型和位置,观察Agent在良性和有害任务上的表现,以及拒绝执行有害请求的比例变化,从而揭示长上下文带来的潜在问题。

技术框架:该研究采用Agentic设置,允许LLM使用外部工具来完成任务。实验流程包括:1) 构建包含不同长度、类型和位置的上下文;2) 向LLM Agent提出良性和有害的任务请求;3) 记录Agent的任务完成情况和拒绝执行有害请求的比例;4) 分析实验数据,评估上下文对Agent性能和安全性的影响。

关键创新:该研究的关键创新在于,首次系统性地研究了长上下文对LLM Agent安全性的影响,揭示了长上下文可能导致Agent性能下降和拒绝响应不稳定的问题。与以往主要关注LLM本身的研究不同,该研究关注的是LLM在Agentic设置下的表现,更贴近实际应用场景。

关键设计:实验中,上下文长度从较短到较长逐步增加,类型包括良性和有害信息,位置则在提示的不同部分进行调整。任务设计包括良性任务(如信息检索、文本摘要)和有害任务(如生成恶意代码、传播虚假信息)。拒绝率的计算方式为拒绝执行有害请求的次数与总有害请求次数之比。模型选择包括GPT-4.1-nano和Grok 4 Fast等具有长上下文窗口的LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,长上下文会导致LLM Agent性能显著下降,即使是具有百万token上下文窗口的模型,在10万token时性能下降也超过50%。拒绝率也出现不可预测的变化,例如GPT-4.1-nano的拒绝率从约5%增加到约40%,而Grok 4 Fast的拒绝率从约80%降低到约10%。这些结果表明,长上下文会严重影响LLM Agent的安全性。

🎯 应用场景

该研究成果对开发安全可靠的长上下文LLM Agent具有重要意义。可应用于智能助手、自动化客服、代码生成等领域,帮助开发者更好地理解和控制Agent的行为,避免潜在的安全风险。未来的研究可以进一步探索缓解长上下文负面影响的方法,例如通过优化提示工程、引入外部知识库等手段来提高Agent的鲁棒性和安全性。

📄 摘要(原文)

Solving complex or long-horizon problems often requires large language models (LLMs) to use external tools and operate over a significantly longer context window. New LLMs enable longer context windows and support tool calling capabilities. Prior works have focused mainly on evaluation of LLMs on long-context prompts, leaving agentic setup relatively unexplored, both from capability and safety perspectives. Our work addresses this gap. We find that LLM agents could be sensitive to length, type, and placement of the context, exhibiting unexpected and inconsistent shifts in task performance and in refusals to execute harmful requests. Models with 1M-2M token context windows show severe degradation already at 100K tokens, with performance drops exceeding 50\% for both benign and harmful tasks. Refusal rates shift unpredictably: GPT-4.1-nano increases from $\sim$5\% to $\sim$40\% while Grok 4 Fast decreases from $\sim$80\% to $\sim$10\% at 200K tokens. Our work shows potential safety issues with agents operating on longer context and opens additional questions on the current metrics and paradigm for evaluating LLM agent safety on long multi-step tasks. In particular, our results on LLM agents reveal a notable divergence in both capability and safety performance compared to prior evaluations of LLMs on similar criteria.