SCI-Defense: Defending Manipulation Attacks from Generative Engine Optimization

📄 arXiv: 2605.21948v1 📥 PDF

作者: Xucheng Yu, Haibo Jin, Huimin Zeng, Haohan Wang

分类: cs.LG

发布日期: 2026-05-21

备注: 20 pages, NeurIPS 2026 submission


💡 一句话要点

提出SCI-Defense框架,防御LLM排序系统中的生成引擎优化攻击

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 生成引擎优化 语义操纵 LLM安全 排序系统 防御框架

📋 核心要点

  1. LLM排序系统易受GEO攻击,攻击者通过操纵产品描述来提升排名,现有防御方法效果不佳。
  2. SCI-Defense框架结合困惑度检测、语义完整性评分和候选者间检测,多维度评估产品描述的语义操纵。
  3. 实验表明,SCI-Defense在产品描述上有效防御多种GEO攻击,优于现有防御方法,并揭示了新的攻击盲点。

📝 摘要(中文)

基于LLM的排序系统容易受到生成引擎优化(GEO)攻击,攻击者通过在产品描述中注入语义信号来人为地提高排名。我们提出了SCI-Defense,一个三组件防御框架,结合了困惑度检测(PPL)、语义完整性评分(SIS)和候选者间检测(ICD)。SIS评估四个操纵维度:权威归属(AA)、叙事目的性(NP)、比较声明(CA)和时间声明(TC)。在6个亚马逊产品类别的600个产品描述上进行评估,SCI-Defense实现了Precision=1.000和FPR=0.000,针对字符串、推理和评论攻击的Recall分别为1.000、0.952和0.830。在600个MS MARCO网页段落上,字符串攻击被完全阻止,而评论攻击的召回率接近于零,因为网页段落缺乏SIS针对产品描述中的说服性信号。我们证明了现有的防御方法——仅PPL过滤器、SafetyClf内容分类器和释义——对语义操纵攻击的召回率为零。我们进一步证明了诸如规范放大和用例饱和等新攻击可以暴露语义相关性操纵,这是一种结构性防御盲点,为未来的研究指明了方向。

🔬 方法详解

问题定义:论文旨在解决LLM排序系统在面对生成引擎优化(GEO)攻击时的脆弱性问题。现有的防御方法,如基于困惑度的过滤、内容分类器和释义,无法有效检测和防御语义层面的操纵攻击,导致攻击者可以轻易地通过注入语义信号来提升恶意产品的排名。

核心思路:论文的核心思路是通过多维度分析产品描述的语义完整性,识别其中存在的操纵痕迹。SCI-Defense框架并非简单地检测文本的流畅度或安全性,而是深入分析文本的说服性特征,例如权威归属、叙事目的性、比较声明和时间声明,从而更准确地识别恶意操纵。

技术框架:SCI-Defense框架包含三个主要组件:1) 困惑度检测(PPL):用于初步过滤低质量的文本。2) 语义完整性评分(SIS):这是核心组件,通过分析文本的四个维度(权威归属、叙事目的性、比较声明和时间声明)来评估语义操纵的程度。3) 候选者间检测(ICD):用于检测多个候选产品描述之间是否存在异常的相似性或关联性,从而发现协同攻击。

关键创新:SCI-Defense的关键创新在于其语义完整性评分(SIS)方法。与传统的基于关键词或文本相似度的检测方法不同,SIS关注的是文本的说服性结构和语义特征,能够更有效地识别语义层面的操纵攻击。此外,SCI-Defense框架的整体设计也考虑了多方面的防御,通过结合PPL、SIS和ICD,提高了防御的鲁棒性和准确性。

关键设计:SIS模块的关键设计在于四个操纵维度的定义和评估方法。例如,权威归属(AA)评估文本是否引用了可信的来源或专家意见;叙事目的性(NP)评估文本是否具有明确的说服目的;比较声明(CA)评估文本是否进行了不公平或误导性的比较;时间声明(TC)评估文本是否使用了不准确或夸大的时间信息。具体的评估方法可能包括基于规则的检测、基于机器学习的分类或两者结合。

📊 实验亮点

SCI-Defense在亚马逊产品描述数据集上取得了显著的性能提升,针对字符串攻击实现了1.000的召回率,针对推理攻击和评论攻击的召回率分别达到了0.952和0.830,同时保持了1.000的精确率和0.000的假阳性率。实验结果表明,SCI-Defense优于现有的防御方法,如仅PPL过滤器、SafetyClf内容分类器和释义。

🎯 应用场景

该研究成果可应用于电商平台、搜索引擎等场景,用于提升排序系统的安全性,防止恶意商家或网站通过语义操纵来提高排名。通过部署SCI-Defense框架,可以有效过滤掉包含虚假宣传、不实信息的产品或网页,从而保护用户的利益,维护平台的公平性和可信度。未来的研究可以进一步探索更复杂的语义操纵攻击,并开发更智能的防御方法。

📄 摘要(原文)

LLM-based ranking systems are vulnerable to Generative Engine Optimization (GEO) attacks, where adversaries inject semantic signals into product descriptions to artificially boost rankings. We propose SCI-Defense, a three-component defense framework combining Perplexity detection (PPL), Semantic Integrity Scoring (SIS), and Inter-Candidate Detection (ICD). SIS evaluates four manipulation dimensions: Authority Attribution (AA), Narrative Purposiveness (NP), Comparative Claims (CA), and Temporal Claims (TC). Evaluated on 600 Amazon product descriptions across 6 categories, SCI-Defense achieves Precision=1.000 and FPR=0.000, with Recall of 1.000, 0.952, and 0.830 against String, Reasoning, and Review attacks respectively. On 600 MS MARCO web passages, String attacks are blocked with perfect recall while Review attacks yield near-zero recall, as web passages lack the persuasion-oriented signals that SIS targets in product descriptions. We demonstrate that existing defenses -- PPL-only filters, SafetyClf content classifiers, and paraphrasing -- achieve zero recall against semantic manipulation attacks. We further demonstrate new attacks such as Specification Amplification and Use-Case Saturation can expose semantic relevance manipulation as a structural defense blind spot that suggests directions for future research.