Check Yourself Before You Wreck Yourself: Selectively Quitting Improves LLM Agent Safety

作者: Vamshi Krishna Bonagiri, Ponnurangam Kumaragurum, Khanh Nguyen, Benjamin Plaut

分类: cs.CL

发布日期: 2025-10-18 (更新: 2026-02-01)

备注: Reliable ML and Regulatable ML workshops, Neurips 2025

💡 一句话要点

提出基于“退出”机制的LLM Agent安全策略，显著提升安全性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 安全性 退出机制 不确定性量化 ToolEmu

📋 核心要点

现有LLM Agent在复杂环境中面临安全性挑战，不确定性和模糊性可能导致严重后果。
论文提出“退出”机制，使Agent在缺乏信心时能够识别并退出危险情境，提升安全性。
实验表明，添加明确退出指令能显著提高Agent安全性，同时对帮助性影响很小。

📝 摘要（中文）

随着大型语言模型（LLM）Agent越来越多地在具有实际后果的复杂环境中运行，其安全性变得至关重要。虽然不确定性量化在单轮任务中得到了充分研究，但具有真实工具访问权限的多轮Agent场景提出了独特的挑战，其中不确定性和模糊性会加剧，导致超出传统文本生成失败的严重或灾难性风险。我们提出使用“退出”作为一种简单而有效的行为机制，使LLM Agent能够识别并退出它们缺乏信心的情境。利用ToolEmu框架，我们对12个最先进的LLM的退出行为进行了系统评估。我们的结果表明，安全性和帮助性之间存在高度有利的权衡：被提示退出并带有明确指令的Agent在所有模型上的安全性平均提高了+0.39（0-3分制）（专有模型为+0.64），而帮助性平均仅下降了-0.03。我们的分析表明，简单地添加明确的退出指令是一种非常有效的安全机制，可以立即部署在现有的Agent系统中，并将退出确立为高风险应用中自主Agent的有效第一道防线。

🔬 方法详解

问题定义：现有LLM Agent在多轮交互和工具使用场景中，由于不确定性和模糊性的累积，容易产生错误甚至危险的行为。传统的不确定性量化方法难以有效应对此类复杂场景，缺乏一种简单有效的安全保障机制。现有方法无法让Agent在自身能力不足时及时止损，从而避免潜在的灾难性后果。

核心思路：论文的核心思路是赋予LLM Agent“退出”的能力，即当Agent对当前任务或情境缺乏信心时，能够主动选择退出，而不是继续执行可能导致错误或危险的操作。这种机制类似于人类在面对不熟悉或危险情况时的自我保护行为。通过让Agent具备“退出”的选项，可以有效降低其在高风险场景中的出错概率。

技术框架：论文使用ToolEmu框架进行实验，该框架提供了一个模拟真实世界工具使用的环境。Agent在ToolEmu环境中执行各种任务，并根据自身的判断选择是否退出。整体流程包括：1) 给定Agent一个任务；2) Agent根据当前状态和任务目标，决定是否执行下一步操作或选择退出；3) 如果Agent选择执行操作，则执行操作并更新状态；4) 如果Agent选择退出，则结束当前任务。

关键创新：论文的关键创新在于将“退出”作为一种显式的行为机制引入LLM Agent的设计中。与以往侧重于提高Agent准确性的方法不同，该方法关注的是降低Agent在高风险场景中的出错概率。通过简单的指令提示，即可赋予Agent“退出”的能力，无需复杂的模型训练或修改。

关键设计：论文的关键设计在于如何提示Agent选择退出。作者通过在指令中明确告知Agent在缺乏信心时应该选择退出，并提供一些退出示例。例如，指令中可以包含“如果你不确定如何完成任务，或者认为任务可能存在风险，请选择退出”等语句。此外，作者还设计了一种基于置信度评分的退出策略，Agent根据自身的置信度评分来决定是否退出。

🖼️ 关键图片

📊 实验亮点

实验结果表明，添加明确退出指令后，Agent的安全性平均提高了+0.39（0-3分制），专有模型甚至提高了+0.64，而帮助性平均仅下降了-0.03。这表明“退出”机制可以在几乎不影响Agent完成任务能力的前提下，显著提高其安全性。实验结果还表明，该方法对多种LLM模型都有效，具有较强的通用性。

🎯 应用场景

该研究成果可应用于各种需要LLM Agent自主决策的场景，例如智能客服、自动驾驶、金融交易等。通过赋予Agent“退出”能力，可以有效降低其在高风险场景中的出错概率，提高系统的整体安全性。未来，该方法还可以与其他安全机制相结合，构建更加完善的LLM Agent安全体系。

📄 摘要（原文）

As Large Language Model (LLM) agents increasingly operate in complex environments with real-world consequences, their safety becomes critical. While uncertainty quantification is well-studied for single-turn tasks, multi-turn agentic scenarios with real-world tool access present unique challenges where uncertainties and ambiguities compound, leading to severe or catastrophic risks beyond traditional text generation failures. We propose using "quitting" as a simple yet effective behavioral mechanism for LLM agents to recognize and withdraw from situations where they lack confidence. Leveraging the ToolEmu framework, we conduct a systematic evaluation of quitting behavior across 12 state-of-the-art LLMs. Our results demonstrate a highly favorable safety-helpfulness trade-off: agents prompted to quit with explicit instructions improve safety by an average of +0.39 on a 0-3 scale across all models (+0.64 for proprietary models), while maintaining a negligible average decrease of -0.03 in helpfulness. Our analysis demonstrates that simply adding explicit quit instructions proves to be a highly effective safety mechanism that can immediately be deployed in existing agent systems, and establishes quitting as an effective first-line defense mechanism for autonomous agents in high-stakes applications.

Check Yourself Before You Wreck Yourself: Selectively Quitting Improves LLM Agent Safety

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理