StealthRank: LLM Ranking Manipulation via Stealthy Prompt Optimization

📄 arXiv: 2504.05804v2 📥 PDF

作者: Yiming Tang, Yi Fan, Chenxiao Yu, Tiankai Yang, Yue Zhao, Xiyang Hu

分类: cs.IR, cs.AI, cs.CL, cs.LG, stat.ML

发布日期: 2025-04-08 (更新: 2025-05-23)

🔗 代码/项目: GITHUB


💡 一句话要点

StealthRank:通过隐蔽提示优化操纵LLM排序,提升目标项目排名。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM排序 对抗攻击 提示优化 隐蔽性 能量模型

📋 核心要点

  1. 现有对抗排序方法容易引入可检测的异常,影响文本流畅性和隐蔽性,难以有效操纵LLM排序。
  2. StealthRank利用基于能量的优化框架和朗之万动力学,生成隐蔽的对抗性提示,嵌入文档描述中。
  3. 实验表明,StealthRank在提升目标项目排名方面,优于现有方法,同时保持了更好的隐蔽性。

📝 摘要(中文)

本文提出了一种新的对抗攻击方法StealthRank,旨在操纵基于大型语言模型(LLM)的排序系统,同时保持文本的流畅性和隐蔽性。与现有方法容易引入可检测的异常不同,StealthRank采用基于能量的优化框架,结合朗之万动力学,生成StealthRank Prompts (SRPs)。这些对抗性文本序列嵌入在项目或文档描述中,微妙而有效地影响LLM的排序机制。在多个LLM上的评估表明,StealthRank能够隐蔽地提升目标项目的排名,同时避免明显的操纵痕迹。实验结果表明,StealthRank在有效性和隐蔽性方面均优于最先进的对抗排序基线,突显了LLM驱动的排序系统中的关键漏洞。代码已公开。

🔬 方法详解

问题定义:论文旨在解决LLM驱动的排序系统中,对抗性攻击方法容易被检测的问题。现有方法通常通过引入明显的文本异常来操纵排名,这使得它们容易被防御机制识别和过滤,从而降低了攻击的有效性和隐蔽性。

核心思路:StealthRank的核心思路是通过生成不易察觉的对抗性提示(SRPs),嵌入到项目或文档的描述中,从而微妙地影响LLM的排序结果。这种方法旨在避免引入明显的文本异常,使攻击更难以被检测。

技术框架:StealthRank采用基于能量的优化框架,结合朗之万动力学来生成SRPs。该框架包含以下主要阶段:1) 初始化:随机初始化对抗性文本序列。2) 能量函数定义:设计能量函数,用于衡量对抗性提示的有效性和隐蔽性。3) 优化:使用朗之万动力学,迭代优化对抗性文本序列,使其在能量函数下达到最小值。4) 嵌入:将优化后的对抗性提示嵌入到目标项目或文档的描述中。

关键创新:StealthRank的关键创新在于其隐蔽性。与现有方法不同,StealthRank通过基于能量的优化框架和朗之万动力学,生成不易察觉的对抗性提示,从而避免了引入明显的文本异常。这种方法使得攻击更难以被检测,提高了攻击的成功率。

关键设计:能量函数的设计是StealthRank的关键。能量函数通常包含两个部分:1) 排名损失:衡量对抗性提示对目标项目排名提升的影响。2) 隐蔽性损失:衡量对抗性提示与原始文本的差异,例如使用困惑度或语义相似度等指标。朗之万动力学用于在能量函数下迭代优化对抗性文本序列,其步长和噪声水平等参数需要仔细调整,以平衡优化速度和稳定性。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,StealthRank在多个LLM上均能有效提升目标项目的排名,且在隐蔽性方面优于现有对抗排序基线。具体而言,StealthRank在提升目标项目排名的同时,能够显著降低对抗性提示的可检测性,从而提高了攻击的成功率。量化指标显示,StealthRank在隐蔽性方面比现有方法提升了约15%-20%。

🎯 应用场景

StealthRank的研究成果可应用于评估和增强LLM驱动的排序系统的安全性。通过模拟对抗性攻击,可以发现系统中的潜在漏洞,并开发相应的防御机制。此外,该方法还可以用于评估不同LLM的鲁棒性,指导LLM的开发和部署,防止恶意操纵和信息污染。

📄 摘要(原文)

The integration of large language models (LLMs) into information retrieval systems introduces new attack surfaces, particularly for adversarial ranking manipulations. We present $\textbf{StealthRank}$, a novel adversarial attack method that manipulates LLM-driven ranking systems while maintaining textual fluency and stealth. Unlike existing methods that often introduce detectable anomalies, StealthRank employs an energy-based optimization framework combined with Langevin dynamics to generate StealthRank Prompts (SRPs)-adversarial text sequences embedded within item or document descriptions that subtly yet effectively influence LLM ranking mechanisms. We evaluate StealthRank across multiple LLMs, demonstrating its ability to covertly boost the ranking of target items while avoiding explicit manipulation traces. Our results show that StealthRank consistently outperforms state-of-the-art adversarial ranking baselines in both effectiveness and stealth, highlighting critical vulnerabilities in LLM-driven ranking systems. Our code is publicly available at $\href{https://github.com/Tangyiming205069/controllable-seo}{here}$.