Unsafe LLM-Based Search: Quantitative Analysis and Mitigation of Safety Risks in AI Web Search
作者: Zeren Luo, Zifan Peng, Yule Liu, Zhen Sun, Mingchen Li, Jingyi Zheng, Xinlei He
分类: cs.CR, cs.AI, cs.LG
发布日期: 2025-02-07 (更新: 2025-06-13)
💡 一句话要点
量化分析并缓解AI网页搜索中基于LLM的不安全风险
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI搜索引擎安全 大型语言模型 恶意内容检测 URL安全 内容优化
📋 核心要点
- 现有AI搜索引擎(AIPSE)易受恶意内容攻击,存在引用恶意网站和传播有害信息等安全风险,缺乏系统性的量化分析。
- 提出一种基于代理的防御机制,利用GPT-4.1进行内容优化和URL检测,以降低AIPSE中的安全风险,提升其安全性。
- 实验表明,该防御机制能够有效降低AIPSE的安全风险,同时仅略微降低可用信息量(约10.7%),实现了安全性和实用性的平衡。
📝 摘要(中文)
大型语言模型(LLM)的最新进展显著增强了AI驱动的搜索引擎(AIPSE)的能力,通过将外部数据库与预先存在的知识相结合,提供精确而高效的响应。然而,我们观察到这些AIPSE存在风险,例如引用恶意内容或恶意网站,导致有害或未经证实的信息传播。在本研究中,我们首次对七个生产AIPSE进行了安全风险量化,系统地定义了威胁模型、风险类型,并评估了对各种查询类型的响应。通过从PhishTank、ThreatBook和LevelBlue收集的数据,我们的研究结果表明,即使使用良性查询(例如,使用良性关键词),AIPSE也经常生成包含恶意URL的有害内容。我们还观察到,直接查询URL会增加包含主要风险的响应数量,而使用自然语言查询会略微降低这种风险。与传统搜索引擎相比,AIPSE在效用和安全性方面均表现出色。我们进一步对在线文档欺骗和网络钓鱼进行了两个案例研究,以展示在真实环境中欺骗AIPSE的容易程度。为了减轻这些风险,我们开发了一种基于代理的防御机制,包括基于GPT-4.1的内容优化工具和URL检测器。我们的评估表明,我们的防御可以有效降低风险,仅以减少约10.7%的可用信息为代价。我们的研究强调了AIPSE中对强大安全措施的迫切需求。
🔬 方法详解
问题定义:论文旨在解决AI驱动的搜索引擎(AIPSE)在实际应用中存在的安全风险问题。现有的AIPSE虽然在信息检索方面表现出色,但容易受到恶意内容的攻击,例如引用恶意网站、传播虚假信息等。这些风险可能导致用户受到欺骗、遭受经济损失,甚至面临人身安全威胁。现有的搜索引擎安全措施对于LLM驱动的AIPSE来说可能不够充分,需要更有效的防御机制。
核心思路:论文的核心思路是构建一个基于代理的防御系统,该系统能够识别并过滤掉AIPSE返回结果中的恶意内容。该系统通过内容优化和URL检测两个关键模块,对AIPSE的输出进行安全审查,从而降低安全风险。这种方法的核心在于利用LLM自身的理解和生成能力,以及专业的URL安全检测工具,来增强AIPSE的安全性。
技术框架:该防御系统的整体架构包含以下几个主要模块:1) 用户查询输入;2) AIPSE返回结果;3) 基于GPT-4.1的内容优化模块,用于识别和修改潜在的有害内容;4) URL检测模块,用于检测结果中包含的URL是否为恶意链接;5) 安全结果输出。整个流程是:用户发起查询,AIPSE返回结果,防御系统对结果进行安全审查,最终将安全的结果呈现给用户。
关键创新:该论文最重要的技术创新点在于将LLM(GPT-4.1)应用于AIPSE的安全防御。与传统的基于规则或黑名单的防御方法不同,该方法能够理解内容的语义,从而更准确地识别和处理恶意内容。此外,该方法还结合了专业的URL检测工具,进一步增强了防御的有效性。这种结合LLM和专业安全工具的防御策略,是与现有方法的本质区别。
关键设计:内容优化模块使用GPT-4.1进行有害内容识别和修改,具体实现细节未知。URL检测模块采用现有的URL安全检测服务(如PhishTank、ThreatBook和LevelBlue)进行恶意URL识别。防御系统的目标是最小化安全风险,同时最大化信息可用性。具体参数设置和损失函数未知,但目标是在安全性和信息量之间取得平衡。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该防御机制能够有效降低AIPSE的安全风险,具体降低幅度未知。同时,该防御机制仅导致约10.7%的可用信息损失,表明其在安全性和实用性之间取得了较好的平衡。与传统搜索引擎相比,AIPSE在效用和安全性方面均表现出色。
🎯 应用场景
该研究成果可应用于各种AI驱动的搜索引擎和问答系统,提升其安全性和可靠性。通过部署类似的防御机制,可以有效防止恶意信息传播,保护用户免受网络欺诈和恶意攻击。该研究对于构建更安全、更值得信赖的AI应用具有重要意义。
📄 摘要(原文)
Recent advancements in Large Language Models (LLMs) have significantly enhanced the capabilities of AI-Powered Search Engines (AIPSEs), offering precise and efficient responses by integrating external databases with pre-existing knowledge. However, we observe that these AIPSEs raise risks such as quoting malicious content or citing malicious websites, leading to harmful or unverified information dissemination. In this study, we conduct the first safety risk quantification on seven production AIPSEs by systematically defining the threat model, risk type, and evaluating responses to various query types. With data collected from PhishTank, ThreatBook, and LevelBlue, our findings reveal that AIPSEs frequently generate harmful content that contains malicious URLs even with benign queries (e.g., with benign keywords). We also observe that directly querying a URL will increase the number of main risk-inclusive responses, while querying with natural language will slightly mitigate such risk. Compared to traditional search engines, AIPSEs outperform in both utility and safety. We further perform two case studies on online document spoofing and phishing to show the ease of deceiving AIPSEs in the real-world setting. To mitigate these risks, we develop an agent-based defense with a GPT-4.1-based content refinement tool and a URL detector. Our evaluation shows that our defense can effectively reduce the risk, with only a minor cost of reducing available information by approximately 10.7%. Our research highlights the urgent need for robust safety measures in AIPSEs.