When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs' Toxicity

📄 arXiv: 2509.11141v1 📥 PDF

作者: Shiyao Cui, Xijia Feng, Yingkang Wang, Junxiao Yang, Zhexin Zhang, Biplab Sikdar, Hongning Wang, Han Qiu, Minlie Huang

分类: cs.CL

发布日期: 2025-09-14


💡 一句话要点

发现表情符号可触发大语言模型生成有害内容,并探究其内在机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 表情符号 毒性生成 安全机制 语义理解

📋 核心要点

  1. 现有研究较少关注表情符号对大语言模型毒性生成的影响,而表情符号可能被恶意利用来绕过安全机制。
  2. 该研究通过构建包含表情符号的提示,探索其对LLM毒性生成的影响,并分析其内在机制。
  3. 实验表明,表情符号可以显著增强LLM生成毒性的能力,并揭示了其可能通过异构语义通道绕过安全机制。

📝 摘要(中文)

本文研究了表情符号如何触发大语言模型(LLMs)生成有害内容。尽管表情符号通常与友好或俏皮相关联,但研究发现它们可能诱导LLMs产生毒性内容。本文旨在探讨:(1)表情符号是否能显著增强LLMs生成毒性的能力;(2)如何解释这种现象。研究通过自动构建包含表情符号的提示,以微妙地表达毒性意图,从而全面探索了表情符号触发LLM毒性生成的问题。在5种主流语言和7个知名LLMs上进行的实验以及越狱任务表明,包含表情符号的提示很容易诱导毒性生成。为了理解这种现象,本文进行了模型层面的解释,涵盖语义认知、序列生成和分词,表明表情符号可以作为一种异构语义通道来绕过安全机制。为了获得更深入的见解,本文进一步探究了预训练语料库,并揭示了与表情符号相关的数据污染与毒性生成行为之间的潜在相关性。

🔬 方法详解

问题定义:现有的大语言模型安全机制在面对包含表情符号的恶意提示时存在漏洞。表情符号作为一种非语言交流方式,其语义的复杂性和多样性使得模型难以准确理解,从而可能被利用来诱导模型生成有害内容。现有方法未能充分考虑表情符号对模型安全性的影响,存在被绕过的风险。

核心思路:本文的核心思路是,表情符号可以作为一种异构语义通道,绕过大语言模型的安全机制。通过在提示中巧妙地使用表情符号,可以微妙地表达毒性意图,从而诱导模型生成有害内容。这种方法利用了表情符号的多义性和模糊性,使得模型难以识别提示中的恶意意图。

技术框架:本文的研究框架主要包括以下几个阶段:1) 构建包含表情符号的提示,用于诱导LLM生成毒性内容。2) 在多个LLM上进行实验,评估表情符号对毒性生成的影响。3) 对模型进行解释,分析表情符号如何影响模型的行为。4) 探究预训练语料库,寻找表情符号与毒性生成之间的关联。

关键创新:本文的关键创新在于发现了表情符号可以作为一种异构语义通道,绕过大语言模型的安全机制。这一发现揭示了现有安全机制的局限性,并为未来的安全研究提供了新的方向。此外,本文还通过实验和模型解释,深入分析了表情符号对模型行为的影响,为理解这一现象提供了有力的证据。

关键设计:在构建提示时,研究人员使用了多种策略,例如将表情符号插入到句子中,或者使用表情符号来替代某些词语。在评估毒性生成时,研究人员使用了多种指标,例如Perspective API的毒性评分。在模型解释方面,研究人员使用了多种技术,例如注意力机制可视化和tokenization分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究表明,在多种语言和多个LLM上,包含表情符号的提示可以显著提高模型生成毒性内容的概率。例如,在某些情况下,添加表情符号可以将毒性评分提高超过20%。此外,研究还发现,某些表情符号比其他表情符号更容易触发毒性生成,这表明表情符号的语义和上下文在其中起着重要作用。

🎯 应用场景

该研究成果可应用于提升大语言模型的安全性,例如开发更有效的安全过滤机制,以防止恶意用户利用表情符号诱导模型生成有害内容。此外,该研究还可以帮助开发者更好地理解表情符号对模型行为的影响,从而设计更鲁棒的模型。

📄 摘要(原文)

Emojis are globally used non-verbal cues in digital communication, and extensive research has examined how large language models (LLMs) understand and utilize emojis across contexts. While usually associated with friendliness or playfulness, it is observed that emojis may trigger toxic content generation in LLMs. Motivated by such a observation, we aim to investigate: (1) whether emojis can clearly enhance the toxicity generation in LLMs and (2) how to interpret this phenomenon. We begin with a comprehensive exploration of emoji-triggered LLM toxicity generation by automating the construction of prompts with emojis to subtly express toxic intent. Experiments across 5 mainstream languages on 7 famous LLMs along with jailbreak tasks demonstrate that prompts with emojis could easily induce toxicity generation. To understand this phenomenon, we conduct model-level interpretations spanning semantic cognition, sequence generation and tokenization, suggesting that emojis can act as a heterogeneous semantic channel to bypass the safety mechanisms. To pursue deeper insights, we further probe the pre-training corpus and uncover potential correlation between the emoji-related data polution with the toxicity generation behaviors. Supplementary materials provide our implementation code and data. (Warning: This paper contains potentially sensitive contents)