Algospeak, Hiding in the Open: The Trade-off Between Legible Meaning and Detection Avoidance
作者: Jan Fillies, Ronald E. Robertson, Jeffrey Hancock
分类: cs.CL, cs.CY
发布日期: 2026-05-07
备注: Under Review
💡 一句话要点
提出Algospeak评估框架,量化语言规避策略在内容可理解性与检测逃逸间的权衡。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Algospeak 内容审核 大语言模型 对抗性评估 自然语言处理 鲁棒性分析 信息传播
📋 核心要点
- 核心问题:Algospeak策略通过语言变体规避审核,但现有研究缺乏对“内容可理解性”与“检测逃逸能力”之间权衡关系的量化分析与形式化定义。
- 方法要点:提出基于联合行动模型的分析框架,引入“多数可理解调制(MUM)”阈值,并构建可调控的Algospeak变体生成工具,实现对规避策略的系统性评估。
- 实验或效果:通过对7种LLM的实证测试,量化了不同调制水平下的性能曲线,成功识别出MUM阈值,为评估内容审核系统的鲁棒性提供了基准与实验范式。
📝 摘要(中文)
随着大语言模型(LLMs)在内容生成与审核中的中介作用日益增强,被称为“Algospeak”的语言规避策略加剧了规避者与检测器之间的协同进化。本研究基于联合行动模型形式化了其潜在动力学:即随着Algospeak程度增加,检测难度降低,但可理解性亦随之下降。研究引入了“多数可理解调制”(MUM)概念,定义为在保持多数受众理解的前提下,实现最大化检测逃逸的调制阈值。为实证研究这一权衡,作者构建了一个可复现的框架,基于现有分类法生成具有可调调制水平的Algospeak变体。以COVID-19虚假信息为案例,通过700个调制样本在7种LLM上进行评估,揭示了可理解性与调制水平间的特征关系,并为理解Algospeak背后的动态机制奠定了基础。
🔬 方法详解
问题定义:论文旨在解决内容审核中“规避者-检测器”博弈的量化难题。现有方法多关注单一维度的检测效果,忽略了规避手段(如拼写替换、同音字等)在提升逃逸率的同时,往往会牺牲人类读者的可理解性,导致信息传播效率下降。
核心思路:引入联合行动模型,将Algospeak视为一种在“可读性”与“隐蔽性”之间的多目标优化问题。核心假设是存在一个临界点(MUM),超过该点后,虽然检测器更难识别,但人类受众也无法理解内容,从而失去了传播价值。
技术框架:研究构建了一个模块化框架:首先基于现有Algospeak分类法定义七种调制策略;其次通过参数化控制调制强度,生成包含700个样本的基准数据集;最后利用七种不同的LLM分别进行“意义恢复(理解力测试)”与“虚假信息分类(检测力测试)”的双重评估。
关键创新:首次提出了“多数可理解调制(MUM)”这一量化指标,通过曲线拟合方法,将定性的语言规避行为转化为可测量的数学阈值,为评估审核系统的防御边界提供了理论支撑。
关键设计:实验设计了五个调制等级,涵盖了从轻微拼写变体到深度语义重构的多种策略。通过对比不同模型在不同调制水平下的准确率衰减曲线,实现了对模型鲁棒性的敏感性分析,并验证了该框架在不同语言模型间的通用性。
📊 实验亮点
研究通过对7种LLM的实证评估,量化了Algospeak调制水平与检测准确率之间的非线性关系。实验结果清晰展示了MUM阈值曲线,证明了随着调制强度增加,检测器性能呈显著下降趋势,同时提供了不同规避策略在不同模型上的敏感性对比数据,验证了该评估框架的有效性。
🎯 应用场景
该研究可广泛应用于社交媒体内容审核系统的压力测试,帮助平台识别潜在的规避风险。同时,它为大语言模型在对抗性环境下的鲁棒性评估提供了基准,有助于优化审核算法,在打击虚假信息传播与维护用户交流体验之间找到最佳平衡点。
📄 摘要(原文)
As large language models (LLMs) increasingly mediate both content generation and moderation, linguistic evasion strategies known as Algospeak have intensified the coevolution between evaders and detectors. This research formalizes the underlying dynamics grounded in a joint action model: when Algospeak increases, detectability and understandability decrease. Further, the concept of Majority Understandable Modulation (MUM) is introduced and defined as the modulation level at which additional evasive alteration increases detector evasion but loses comprehension for the majority of recipients. To empirically probe this trade-off, we introduce a reproducible framework that can be used to create meaning-preserving, Algospeak-style variants, based on an existing taxonomy and with tunable modulation levels. Using COVID-19 disinformation as a first proof-by-example setting, we construct a reference dataset of 700 modulated items, drawn from twenty base sentences across five modulation levels and seven strategies. We then run two linked evaluations with seven different language models: one testing for interpretation through meaning recovery and one for disinformation detection through classification. Curve fitting over modulation levels yields an estimate of the Majority Understandable Modulation threshold and enables sensitivity analyses across strategies and models, see Figure 1. Results reveal the characteristic relationships between understandability and modulation. This study lays the groundwork for understanding the dynamics behind Algospeak and provides the framework, dataset, and experimental setups described.