Stochasticity in Tokenisation Improves Robustness
作者: Sophie Steger, Rui Li, Sofiane Ennadir, Anya Sims, Arno Solin, Franz Pernkopf, Martin Trapp
分类: cs.CL
发布日期: 2026-04-17
💡 一句话要点
引入随机分词提升大语言模型对对抗攻击的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 鲁棒性 随机分词 对抗攻击 预训练
📋 核心要点
- 现有大语言模型在确定性分词下训练,容易受到对抗攻击,鲁棒性较差。
- 该论文提出使用随机分词进行训练,使模型学习到对分词扰动不敏感的内部表示。
- 实验表明,使用随机分词进行预训练和微调,能有效提升模型对随机和对抗扰动的鲁棒性,且不增加推理成本。
📝 摘要(中文)
大型语言模型(LLM)的广泛应用引发了对其鲁棒性的担忧。输入分词的扰动漏洞表明,使用确定性规范分词训练的模型可能容易受到对抗攻击。最近的研究表明,随机分词可以提供对扰动不太敏感的内部表示。本文分析了随机分词如何影响对抗攻击和随机扰动的鲁棒性。我们系统地研究了预训练、监督微调和上下文学习等多种学习机制、数据集和模型架构。结果表明,使用均匀采样的随机分词进行预训练和微调可以提高对随机和对抗扰动的鲁棒性。在均匀采样的非规范分词上评估时,使用规范分词训练的Llama-1b模型的准确率降低了29.8%。我们发现,使用随机分词进行训练可以保持准确率,而不会增加推理成本。
🔬 方法详解
问题定义:现有的大型语言模型对输入文本的分词方式非常敏感。即使是微小的分词变化,也可能导致模型输出产生巨大差异,这使得模型容易受到对抗攻击。现有的模型训练方法通常采用确定性的规范分词方式,这使得模型过度依赖于特定的分词规则,从而降低了模型的泛化能力和鲁棒性。
核心思路:该论文的核心思路是通过在训练过程中引入随机分词,使模型能够学习到对分词方式不敏感的内部表示。具体来说,就是在每次训练迭代时,对输入文本进行随机分词,从而迫使模型学习到更加鲁棒的特征表示,减少对特定分词规则的依赖。
技术框架:该研究的技术框架主要包括三个阶段:预训练、监督微调和上下文学习。在每个阶段,都使用随机分词对模型进行训练。具体流程如下:1. 数据准备:准备用于预训练、微调和上下文学习的数据集。2. 随机分词:对输入文本进行随机分词,生成多个不同的分词结果。3. 模型训练:使用随机分词后的数据训练模型。4. 模型评估:评估模型在对抗攻击和随机扰动下的鲁棒性。
关键创新:该论文的关键创新在于将随机分词引入到大语言模型的训练过程中,从而提高了模型的鲁棒性。与传统的确定性分词方法相比,随机分词能够使模型学习到更加鲁棒的特征表示,减少对特定分词规则的依赖。这种方法简单有效,并且可以应用于不同的学习机制、数据集和模型架构。
关键设计:该研究的关键设计包括:1. 均匀采样随机分词:在每次训练迭代时,从所有可能的分词结果中均匀采样一个分词结果。2. 多种学习机制:在预训练、监督微调和上下文学习等多种学习机制下进行实验,验证随机分词的有效性。3. 多种数据集和模型架构:在不同的数据集和模型架构上进行实验,验证随机分词的泛化能力。4. 评估指标:使用准确率等指标评估模型在对抗攻击和随机扰动下的鲁棒性。
📊 实验亮点
实验结果表明,使用随机分词进行预训练和微调可以显著提高模型对随机和对抗扰动的鲁棒性。例如,在均匀采样的非规范分词上评估时,使用规范分词训练的Llama-1b模型的准确率降低了29.8%,而使用随机分词训练的模型则能够保持较高的准确率。此外,该方法在提高鲁棒性的同时,不会增加推理成本。
🎯 应用场景
该研究成果可应用于提升大语言模型在各种实际应用场景中的安全性与可靠性,例如智能客服、文本生成、机器翻译等。通过提高模型对对抗攻击的鲁棒性,可以有效防止恶意用户利用分词漏洞进行攻击,保障模型的正常运行和用户数据的安全。此外,该方法还有助于提高模型在噪声环境下的性能,使其能够更好地适应真实世界的复杂场景。
📄 摘要(原文)
The widespread adoption of large language models (LLMs) has increased concerns about their robustness. Vulnerabilities in perturbations of tokenisation of the input indicate that models trained with a deterministic canonical tokenisation can be brittle to adversarial attacks. Recent studies suggest that stochastic tokenisation can deliver internal representations that are less sensitive to perturbations. In this paper, we analyse how stochastic tokenisations affect robustness to adversarial attacks and random perturbations. We systematically study this over a range of learning regimes (pre-training, supervised fine-tuning, and in-context learning), data sets, and model architectures. We show that pre-training and fine-tuning with uniformly sampled stochastic tokenisations improve robustness to random and adversarial perturbations. Evaluating on uniformly sampled non-canonical tokenisations reduces the accuracy of a canonically trained Llama-1b model by 29.8%. We find that training with stochastic tokenisation preserves accuracy without increasing inference cost.