OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!
作者: Jingdi Lei, Varun Gumma, Rishabh Bhardwaj, Seok Min Lim, Chuan Li, Amir Zadeh, Soujanya Poria
分类: cs.AI
发布日期: 2025-09-30 (更新: 2025-10-03)
💡 一句话要点
OffTopicEval:评估大语言模型在错误场景下的安全性,揭示其泛化能力不足
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 操作安全性 提示工程 Out-of-Distribution检测 LLM安全 OffTopicEval 查询Grounding 系统提示Grounding
📋 核心要点
- 现有大语言模型在通用安全方面取得了进展,但在特定应用场景下的操作安全性仍面临挑战,模型容易接受不相关的用户查询。
- 论文提出OffTopicEval评估套件,用于衡量LLM在特定任务中的操作安全性,即模型拒绝不相关查询的能力。
- 实验表明现有LLM在操作安全性方面表现不佳,并提出了查询和系统提示 grounding 方法,显著提升了模型拒绝不相关查询的能力。
📝 摘要(中文)
大型语言模型(LLM)的安全性是实现大规模部署面临的最紧迫挑战之一。虽然大多数研究和讨论都集中在通用危害上,例如模型协助用户伤害自己或他人,但企业面临着一个更根本的问题:基于LLM的代理对于其预期用例是否安全。为了解决这个问题,我们引入了操作安全性,定义为LLM在特定任务中适当接受或拒绝用户查询的能力。我们进一步提出了OffTopicEval,这是一个评估套件和基准,用于衡量通用和特定代理用例中的操作安全性。我们对包含20个开放权重LLM的六个模型系列的评估表明,虽然性能因模型而异,但所有模型在操作上仍然高度不安全。即使是最强大的模型,Qwen-3 (235B) 和 Mistral (24B),也远未达到可靠的操作安全性,而GPT模型稳定在62-73%的范围内,Phi仅达到中等水平的分数(48-70%),Gemma和Llama-3分别崩溃至39.53%和23.84%。虽然操作安全性是一个核心模型对齐问题,但为了抑制这些失败,我们提出了基于提示的引导方法:查询 grounding (Q-ground) 和系统提示 grounding (P-ground),它们显着提高了OOD拒绝。Q-ground提供了高达23%的持续增益,而P-ground提供了更大的提升,将Llama-3.3 (70B) 提高了41%,将Qwen-3 (30B) 提高了27%。这些结果突出了对操作安全性干预的迫切需求,以及基于提示的引导作为迈向更可靠的基于LLM的代理的第一步的希望。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在特定应用场景中,无法有效区分相关和不相关用户查询的问题。现有方法主要关注通用安全,忽略了企业应用中LLM需要具备的操作安全性,即拒绝超出任务范围的查询。这种缺陷可能导致LLM在错误场景下提供不准确或有害的回复,影响用户体验和企业声誉。
核心思路:论文的核心思路是通过构建OffTopicEval评估套件,系统性地评估LLM在特定任务中的操作安全性。同时,提出基于提示的引导方法,包括查询 grounding (Q-ground) 和系统提示 grounding (P-ground),以提高模型拒绝不相关查询的能力。这种方法旨在通过提示工程,引导模型更好地理解任务范围,从而更准确地判断查询的相关性。
技术框架:OffTopicEval评估框架包含以下几个主要组成部分:1) 定义特定任务场景;2) 构建包含相关和不相关查询的数据集;3) 使用不同的LLM对数据集进行评估;4) 采用指标衡量模型拒绝不相关查询的能力。提出的提示引导方法,Q-ground通过在用户查询中加入任务相关的上下文信息,增强模型对查询意图的理解。P-ground则通过修改系统提示,明确告知模型任务范围和拒绝不相关查询的要求。
关键创新:论文的关键创新在于:1) 提出了操作安全性的概念,弥补了现有LLM安全研究的不足;2) 构建了OffTopicEval评估套件,为评估LLM在特定任务中的操作安全性提供了标准化的基准;3) 提出了基于提示的引导方法,为提高LLM的操作安全性提供了一种简单有效的解决方案。与现有方法相比,该方法无需重新训练模型,即可显著提升模型拒绝不相关查询的能力。
关键设计:Q-ground的关键设计在于如何选择合适的任务相关上下文信息,并将其有效地融入用户查询中。P-ground的关键设计在于如何编写清晰明确的系统提示,以引导模型正确理解任务范围和拒绝不相关查询的要求。论文中没有明确提及具体的参数设置或损失函数,而是侧重于提示工程的设计。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有LLM在OffTopicEval评估套件上的表现不佳,操作安全性有待提高。Q-ground和P-ground两种提示引导方法均能显著提升模型拒绝不相关查询的能力,其中P-ground效果更佳,将Llama-3.3 (70B) 的性能提升了41%,将Qwen-3 (30B) 提升了27%。这些结果验证了提示引导方法在提高LLM操作安全性方面的有效性。
🎯 应用场景
该研究成果可应用于各种企业级LLM应用场景,例如智能客服、文档问答、代码生成等。通过提高LLM的操作安全性,可以减少模型在错误场景下的误导性回复,提升用户体验,降低企业风险。未来,该研究可以进一步扩展到更复杂的任务场景,并探索更有效的提示引导方法,以实现更可靠的LLM应用。
📄 摘要(原文)
Large Language Model (LLM) safety is one of the most pressing challenges for enabling wide-scale deployment. While most studies and global discussions focus on generic harms, such as models assisting users in harming themselves or others, enterprises face a more fundamental concern: whether LLM-based agents are safe for their intended use case. To address this, we introduce operational safety, defined as an LLM's ability to appropriately accept or refuse user queries when tasked with a specific purpose. We further propose OffTopicEval, an evaluation suite and benchmark for measuring operational safety both in general and within specific agentic use cases. Our evaluations on six model families comprising 20 open-weight LLMs reveal that while performance varies across models, all of them remain highly operationally unsafe. Even the strongest models - Qwen-3 (235B) with 77.77% and Mistral (24B) with 79.96% - fall far short of reliable operational safety, while GPT models plateau in the 62-73% range, Phi achieves only mid-level scores (48-70%), and Gemma and Llama-3 collapse to 39.53% and 23.84%, respectively. While operational safety is a core model alignment issue, to suppress these failures, we propose prompt-based steering methods: query grounding (Q-ground) and system-prompt grounding (P-ground), which substantially improve OOD refusal. Q-ground provides consistent gains of up to 23%, while P-ground delivers even larger boosts, raising Llama-3.3 (70B) by 41% and Qwen-3 (30B) by 27%. These results highlight both the urgent need for operational safety interventions and the promise of prompt-based steering as a first step toward more reliable LLM-based agents.