SafeSearch: Do Not Trade Safety for Utility in LLM Search Agents
作者: Qiusi Zhan, Angeline Budiman-Chan, Abdelrahman Zayed, Xingzhi Guo, Daniel Kang, Joo-Kyung Kim
分类: cs.CL
发布日期: 2025-10-19 (更新: 2025-11-05)
备注: Code available at https://github.com/amazon-science/SafeSearch
💡 一句话要点
SafeSearch:提出兼顾安全与效用的LLM搜索代理多目标强化学习方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM搜索代理 安全性 效用 多目标强化学习 查询级别奖励
📋 核心要点
- 现有LLM搜索代理在提升效用的同时,忽略了安全性,导致其产生有害输出的风险高于基础LLM。
- SafeSearch通过多目标强化学习,结合最终输出的安全/效用奖励和查询级别的安全奖励,实现安全与效用的联合优化。
- 实验表明,SafeSearch在显著降低有害输出的同时,保持了与效用优化模型相当的问答性能,验证了其有效性。
📝 摘要(中文)
基于大型语言模型(LLM)的搜索代理通过迭代生成查询、检索外部信息和推理来回答开放领域的问题。虽然研究人员主要关注提高其效用,但其安全行为仍未得到充分探索。本文首先使用红队数据集评估搜索代理,发现它们比基础LLM更容易产生有害输出。例如,当被问及“如何在未经他人同意的情况下追踪某人的位置?”时,基础模型会拒绝,而旨在检索和引用来源的搜索代理可能会降低其拒绝阈值,获取文档(例如,法院案件),并在附加后将它们合成为信息丰富但不安全的摘要。进一步表明,以效用为导向的微调加剧了这种风险,从而激发了安全性和效用的联合对齐。提出SafeSearch,一种多目标强化学习方法,它将最终输出的安全性/效用奖励与一种新颖的查询级别塑造项相结合,该塑造项惩罚不安全的查询并奖励安全的查询。实验表明,SafeSearch在三个红队数据集上将代理的有害性降低了70%以上,同时产生了安全、有用的响应,并且与仅以效用为导向的微调代理的QA性能相匹配;进一步的分析证实了查询级别奖励在共同提高安全性和效用方面的有效性。
🔬 方法详解
问题定义:论文旨在解决LLM搜索代理在追求效用时,安全性降低的问题。现有方法主要关注提升搜索代理的问答准确性和信息检索能力,而忽略了其可能产生的有害或不安全输出。这种以效用为中心的优化策略,使得搜索代理更容易受到恶意查询的引导,从而生成包含敏感信息或具有潜在危害的回复。
核心思路:SafeSearch的核心思路是通过多目标强化学习,同时优化搜索代理的安全性和效用。具体而言,该方法不仅关注最终输出的安全性,还在查询生成阶段引入了安全奖励,从而引导代理生成更安全的查询,避免触发有害信息的检索。
技术框架:SafeSearch采用多目标强化学习框架,包含以下主要模块:1) LLM搜索代理:负责生成查询、检索信息和生成最终答案;2) 安全性评估器:用于评估查询和最终输出的安全性;3) 效用评估器:用于评估最终输出的质量和准确性;4) 强化学习算法:用于优化LLM搜索代理的策略,使其在安全性和效用之间取得平衡。
关键创新:SafeSearch的关键创新在于引入了查询级别的安全奖励。传统方法只关注最终输出的安全性,而忽略了查询生成过程中的潜在风险。通过在查询级别引入安全奖励,SafeSearch能够更早地识别和避免不安全的查询,从而从根本上降低有害输出的风险。
关键设计:SafeSearch的关键设计包括:1) 多目标奖励函数:将最终输出的安全性和效用作为两个优化目标,并根据实际需求调整权重;2) 查询级别安全奖励:根据查询的安全性程度,给予代理相应的奖励或惩罚;3) 强化学习算法:采用合适的强化学习算法(例如,PPO)来优化LLM搜索代理的策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SafeSearch在三个红队数据集上将代理的有害性降低了70%以上,同时保持了与仅以效用为导向的微调代理相当的问答性能。这表明SafeSearch能够在显著提高安全性的同时,不牺牲代理的效用。此外,实验还验证了查询级别奖励在共同提高安全性和效用方面的有效性。
🎯 应用场景
SafeSearch的研究成果可应用于各种需要安全可靠的LLM搜索代理的场景,例如:智能客服、医疗诊断辅助、法律咨询等。通过提高搜索代理的安全性,可以避免其产生有害信息,保护用户隐私,并提升用户信任度。未来,该方法还可以扩展到其他类型的LLM应用中,例如文本生成、代码生成等。
📄 摘要(原文)
Large language model (LLM) based search agents iteratively generate queries, retrieve external information, and reason to answer open-domain questions. While researchers have primarily focused on improving their utility, their safety behaviors remain underexplored. In this paper, we first evaluate search agents using red-teaming datasets and find that they are more likely to produce harmful outputs than base LLMs. For example, when asked "How can I track someone's location without their consent?", a base model refuses, whereas a search agent designed to retrieve and cite sources may lower its refusal threshold, fetch documents (e.g., court cases), and, once appended, synthesize them into an informative yet unsafe summary. We further show that utility-oriented fine-tuning intensifies this risk, motivating joint alignment of safety and utility. We present SafeSearch, a multi-objective reinforcement learning approach that couples a final-output safety/utility reward with a novel query-level shaping term that penalizes unsafe queries and rewards safe ones. Experiments show that SafeSearch reduces agent harmfulness by over 70% across three red-teaming datasets while producing safe, helpful responses, and matches the QA performance of a utility-only finetuned agent; further analyses confirm the effectiveness of the query-level reward in jointly improving safety and utility.