Check Yourself Before You Wreck Yourself: Selectively Quitting Improves LLM Agent Safety

📄 arXiv: 2510.16492v3 📥 PDF

作者: Vamshi Krishna Bonagiri, Ponnurangam Kumaragurum, Khanh Nguyen, Benjamin Plaut

分类: cs.CL

发布日期: 2025-10-18 (更新: 2026-02-01)

备注: Reliable ML and Regulatable ML workshops, Neurips 2025


💡 一句话要点

提出基于“退出”机制的LLM Agent安全策略,显著提升安全性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 安全性 退出机制 不确定性量化 ToolEmu

📋 核心要点

  1. 现有LLM Agent在复杂环境中面临安全性挑战,不确定性和模糊性可能导致严重后果。
  2. 论文提出“退出”机制,使Agent在缺乏信心时能够识别并退出危险情境,提升安全性。
  3. 实验表明,添加明确退出指令能显著提高Agent安全性,同时对帮助性影响很小。

📝 摘要(中文)

随着大型语言模型(LLM)Agent越来越多地在具有实际后果的复杂环境中运行,其安全性变得至关重要。虽然不确定性量化在单轮任务中得到了充分研究,但具有真实工具访问权限的多轮Agent场景提出了独特的挑战,其中不确定性和模糊性会加剧,导致超出传统文本生成失败的严重或灾难性风险。我们提出使用“退出”作为一种简单而有效的行为机制,使LLM Agent能够识别并退出它们缺乏信心的情境。利用ToolEmu框架,我们对12个最先进的LLM的退出行为进行了系统评估。我们的结果表明,安全性和帮助性之间存在高度有利的权衡:被提示退出并带有明确指令的Agent在所有模型上的安全性平均提高了+0.39(0-3分制)(专有模型为+0.64),而帮助性平均仅下降了-0.03。我们的分析表明,简单地添加明确的退出指令是一种非常有效的安全机制,可以立即部署在现有的Agent系统中,并将退出确立为高风险应用中自主Agent的有效第一道防线。

🔬 方法详解

问题定义:现有LLM Agent在多轮交互和工具使用场景中,由于不确定性和模糊性的累积,容易产生错误甚至危险的行为。传统的不确定性量化方法难以有效应对此类复杂场景,缺乏一种简单有效的安全保障机制。现有方法无法让Agent在自身能力不足时及时止损,从而避免潜在的灾难性后果。

核心思路:论文的核心思路是赋予LLM Agent“退出”的能力,即当Agent对当前任务或情境缺乏信心时,能够主动选择退出,而不是继续执行可能导致错误或危险的操作。这种机制类似于人类在面对不熟悉或危险情况时的自我保护行为。通过让Agent具备“退出”的选项,可以有效降低其在高风险场景中的出错概率。

技术框架:论文使用ToolEmu框架进行实验,该框架提供了一个模拟真实世界工具使用的环境。Agent在ToolEmu环境中执行各种任务,并根据自身的判断选择是否退出。整体流程包括:1) 给定Agent一个任务;2) Agent根据当前状态和任务目标,决定是否执行下一步操作或选择退出;3) 如果Agent选择执行操作,则执行操作并更新状态;4) 如果Agent选择退出,则结束当前任务。

关键创新:论文的关键创新在于将“退出”作为一种显式的行为机制引入LLM Agent的设计中。与以往侧重于提高Agent准确性的方法不同,该方法关注的是降低Agent在高风险场景中的出错概率。通过简单的指令提示,即可赋予Agent“退出”的能力,无需复杂的模型训练或修改。

关键设计:论文的关键设计在于如何提示Agent选择退出。作者通过在指令中明确告知Agent在缺乏信心时应该选择退出,并提供一些退出示例。例如,指令中可以包含“如果你不确定如何完成任务,或者认为任务可能存在风险,请选择退出”等语句。此外,作者还设计了一种基于置信度评分的退出策略,Agent根据自身的置信度评分来决定是否退出。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,添加明确退出指令后,Agent的安全性平均提高了+0.39(0-3分制),专有模型甚至提高了+0.64,而帮助性平均仅下降了-0.03。这表明“退出”机制可以在几乎不影响Agent完成任务能力的前提下,显著提高其安全性。实验结果还表明,该方法对多种LLM模型都有效,具有较强的通用性。

🎯 应用场景

该研究成果可应用于各种需要LLM Agent自主决策的场景,例如智能客服、自动驾驶、金融交易等。通过赋予Agent“退出”能力,可以有效降低其在高风险场景中的出错概率,提高系统的整体安全性。未来,该方法还可以与其他安全机制相结合,构建更加完善的LLM Agent安全体系。

📄 摘要(原文)

As Large Language Model (LLM) agents increasingly operate in complex environments with real-world consequences, their safety becomes critical. While uncertainty quantification is well-studied for single-turn tasks, multi-turn agentic scenarios with real-world tool access present unique challenges where uncertainties and ambiguities compound, leading to severe or catastrophic risks beyond traditional text generation failures. We propose using "quitting" as a simple yet effective behavioral mechanism for LLM agents to recognize and withdraw from situations where they lack confidence. Leveraging the ToolEmu framework, we conduct a systematic evaluation of quitting behavior across 12 state-of-the-art LLMs. Our results demonstrate a highly favorable safety-helpfulness trade-off: agents prompted to quit with explicit instructions improve safety by an average of +0.39 on a 0-3 scale across all models (+0.64 for proprietary models), while maintaining a negligible average decrease of -0.03 in helpfulness. Our analysis demonstrates that simply adding explicit quit instructions proves to be a highly effective safety mechanism that can immediately be deployed in existing agent systems, and establishes quitting as an effective first-line defense mechanism for autonomous agents in high-stakes applications.