What the Eyes See, the LLMs Miss: Exploiting Human Perception for Adversarial Text Attacks

📄 arXiv: 2606.09700v1 📥 PDF

作者: Qin Yang, Lu Malloy, Joshua Lee, Xiaohan Chang, Meisam Mohammady, Doowon Kim, Yuan Hong

分类: cs.CR, cs.HC, cs.LG

发布日期: 2026-06-08

备注: This work has been accepted for publication at USENIX Security 2026. This paper includes examples of harmful, hateful, or abusive language for research purposes. Reader discretion is advised


💡 一句话要点

提出人类感知驱动的对抗文本攻击以提升内容审核系统的有效性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对抗攻击 内容审核 人类感知 排版特征 大型语言模型 视觉线索 机器学习

📋 核心要点

  1. 现有的内容审核系统主要依赖于文本标记,忽视了人类在内容解读中依赖的视觉线索,导致感知不匹配。
  2. 论文提出了一种人类可感知的对抗攻击方法,通过排版操作将有害内容嵌入无害文本中,提升人类识别率。
  3. 实验表明,生成的对抗攻击在仅使用三个查询的情况下,人工识别率超过86%,而机器检测率低于1%。

📝 摘要(中文)

基于大型语言模型(LLM)的内容审核系统在抵御有害在线内容方面发挥着重要作用。然而,这些系统主要依赖于标记化文本,忽视了人类在内容解读中自然依赖的视觉线索。本文展示了这一差异导致的感知不匹配:人类易于识别的有害内容在自动化审核系统中却可能变得不可见。为研究这一脆弱性,本文引入了一类人类可感知的对抗攻击(HPAA),通过视觉显著的排版操作将有害表达嵌入原本无害的文本中。我们的关键见解是,排版特征可以被战略性地组合,以保留人类对有害内容的识别,同时显著降低机器的检测能力。实验结果显示,生成的攻击在仅使用三个检测查询的情况下,达到了超过86%的人工识别率,而在评估的系统中保持了低于1%的检测率。

🔬 方法详解

问题定义:本文旨在解决现有LLM驱动的内容审核系统未能有效识别有害内容的问题,尤其是由于忽视视觉线索导致的感知不匹配现象。

核心思路:论文的核心思路是利用排版特征(如间距、视觉强调和空间排列)来嵌入有害内容,从而在保持人类识别的同时降低机器检测能力。

技术框架:整体架构包括对抗文本生成模块,利用排版特征进行内容嵌入,和评估模块,测试生成内容在不同审核系统中的表现。

关键创新:最重要的技术创新在于提出了人类可感知的对抗攻击(HPAA),通过视觉显著的排版操作实现了人类与机器之间的感知差异,显著提高了对抗攻击的有效性。

关键设计:关键设计包括对排版特征的选择和组合,确保生成的文本在视觉上对人类友好,同时在机器检测中保持隐蔽性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,在仅使用三个检测查询的情况下,生成的对抗攻击达到了超过86%的人工识别率,而在十个评估的审核系统中,机器检测率保持在低于1%。这一显著的性能差距揭示了当前审核系统的盲点,强调了改进的必要性。

🎯 应用场景

该研究的潜在应用领域包括社交媒体内容审核、在线评论过滤和自动化内容监控等。通过提升审核系统对有害内容的识别能力,能够有效减少网络暴力、虚假信息等问题,增强用户体验和安全性。未来,该方法可能推动更智能的内容审核技术的发展,使其更符合人类的感知方式。

📄 摘要(原文)

Large language model (LLM)-powered content moderation systems have become a critical defense against harmful online content. However, these systems primarily operate on tokenized text and largely ignore the visual cues that humans naturally rely on when interpreting content. We show that this discrepancy creates a fundamental perceptual mismatch: content that is readily recognized as harmful by humans can become effectively invisible to automated moderation systems. To study this vulnerability, we introduce a class of Human-Perceptible Adversarial Attacks (HPAA), in which harmful expressions are embedded into otherwise benign text through visually salient typographic manipulations. Our key insight is that typographic features, including spacing, visual emphasis, and spatial arrangement, can be strategically combined to preserve human recognition of harmful content while substantially reducing machine detectability. Operating in black-box settings with only a small query budget, our attack automatically generates evasive content without requiring model access or gradient information. We evaluate the attack across multiple datasets and ten deployed moderation systems, including commercial APIs and state-of-the-art open-source guardrails. Results reveal a striking gap between human and machine perception: with only three detector queries, generated attacks achieve over 86\% human recognition while maintaining detection rates below 1\% across the evaluated systems. We further conduct ablation studies to identify the typographic factors driving successful evasion, analyze why current moderation architectures fail to capture these signals, and discuss practical defenses. Our findings expose a fundamental blind spot in today's LLM-based moderation ecosystem and highlight need for moderation systems that reason about content in a manner more consistent with human perceptual understanding.