Ranking Manipulation for Conversational Search Engines

📄 arXiv: 2406.03589v3 📥 PDF

作者: Samuel Pfrommer, Yatong Bai, Tanmay Gautam, Somayeh Sojoudi

分类: cs.CL

发布日期: 2024-06-05 (更新: 2024-09-25)

备注: 2024 Conference on Empirical Methods in Natural Language Processing (Main)


💡 一句话要点

提出针对会话式搜索引擎的排名操纵攻击方法,提升低排名产品

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 会话式搜索 排名操纵 提示注入攻击 大型语言模型 对抗性攻击

📋 核心要点

  1. 会话式搜索引擎易受提示注入攻击,导致LLM输出质量下降,安全性受损。
  2. 提出一种基于攻击树的越狱技术,通过对抗性提示操纵LLM,从而影响搜索排名。
  3. 实验证明该方法能有效提升低排名产品,并成功迁移到perplexity.ai等先进引擎。

📝 摘要(中文)

大型搜索引擎提供商正迅速将大型语言模型(LLM)生成的内容整合到用户查询的响应中。这些会话式搜索引擎通过将检索到的网站文本加载到LLM上下文中进行总结和解释来运作。最近的研究表明,LLM极易受到越狱和提示注入攻击的影响,这些攻击使用对抗性字符串来破坏LLM的安全和质量目标。本文研究了提示注入对会话式搜索引擎引用的来源排名顺序的影响。为此,我们引入了一个专注于真实世界消费产品网站的数据集,并将会话式搜索排名形式化为一个对抗性问题。通过实验,我们分析了在没有对抗性注入的情况下会话式搜索排名,并表明不同的LLM在优先考虑产品名称、文档内容和上下文位置方面存在显著差异。然后,我们提出了一种基于攻击树的越狱技术,该技术可以可靠地提升低排名产品。重要的是,这些攻击可以有效地转移到最先进的会话式搜索引擎,例如perplexity.ai。鉴于网站所有者有强烈的经济动机来提高其搜索排名,我们认为我们的问题公式化对于未来的鲁棒性工作至关重要。

🔬 方法详解

问题定义:论文旨在解决会话式搜索引擎中,由于大型语言模型(LLM)易受提示注入攻击,导致搜索排名被恶意操纵的问题。现有的会话式搜索引擎依赖LLM对检索到的网页内容进行总结和排序,但LLM对对抗性攻击的脆弱性使得攻击者可以通过精心设计的提示来影响LLM的判断,从而改变搜索结果的排名,损害用户的搜索体验。

核心思路:论文的核心思路是利用LLM对提示注入攻击的脆弱性,构建一种基于攻击树的越狱技术,通过对抗性提示来操纵LLM,使其优先推荐低排名的产品。这种方法旨在模拟真实世界中网站所有者为了提高自身产品排名而可能采取的恶意行为。

技术框架:论文的技术框架主要包含以下几个阶段:1)构建一个包含真实消费产品网站的数据集;2)形式化会话式搜索排名为一个对抗性问题;3)分析在没有对抗性注入的情况下,不同LLM在产品排名上的差异;4)设计并实现基于攻击树的越狱技术,生成对抗性提示;5)评估对抗性提示对搜索排名的影响,并测试其在不同会话式搜索引擎上的迁移性。

关键创新:论文的关键创新在于提出了一种基于攻击树的越狱技术,用于生成对抗性提示,从而操纵会话式搜索引擎的排名。与传统的提示注入攻击不同,该方法更加系统化,能够可靠地提升低排名产品,并且具有良好的迁移性,可以应用于不同的会话式搜索引擎。

关键设计:论文的关键设计包括:1)攻击树的构建,用于系统地探索不同的攻击路径;2)对抗性提示的生成策略,旨在最大化对LLM的影响,同时避免被检测为恶意提示;3)实验评估指标的选择,用于量化对抗性提示对搜索排名的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的基于攻击树的越狱技术能够有效地提升低排名产品,并且该攻击可以成功迁移到perplexity.ai等最先进的会话式搜索引擎。这表明现有的会话式搜索引擎在对抗提示注入攻击方面存在明显的不足,需要进一步加强安全防护。

🎯 应用场景

该研究成果可应用于提升会话式搜索引擎的安全性与鲁棒性,防止恶意排名操纵,保障用户获取公正客观的搜索结果。同时,该研究也为搜索引擎开发者提供了对抗性攻击的防御思路,促进更安全可靠的会话式搜索技术发展。此外,该研究也警示了LLM在实际应用中面临的安全风险,推动相关安全研究。

📄 摘要(原文)

Major search engine providers are rapidly incorporating Large Language Model (LLM)-generated content in response to user queries. These conversational search engines operate by loading retrieved website text into the LLM context for summarization and interpretation. Recent research demonstrates that LLMs are highly vulnerable to jailbreaking and prompt injection attacks, which disrupt the safety and quality goals of LLMs using adversarial strings. This work investigates the impact of prompt injections on the ranking order of sources referenced by conversational search engines. To this end, we introduce a focused dataset of real-world consumer product websites and formalize conversational search ranking as an adversarial problem. Experimentally, we analyze conversational search rankings in the absence of adversarial injections and show that different LLMs vary significantly in prioritizing product name, document content, and context position. We then present a tree-of-attacks-based jailbreaking technique which reliably promotes low-ranked products. Importantly, these attacks transfer effectively to state-of-the-art conversational search engines such as perplexity$.$ai. Given the strong financial incentive for website owners to boost their search ranking, we argue that our problem formulation is of critical importance for future robustness work.