Understanding Secret Leakage Risks in Code LLMs: A Tokenization Perspective
作者: Meifang Chen, Zhe Yang, Huang Nianchen, Yizhan Huang, Yichen Li, Zihan Li, Michael R. Lyu
分类: cs.CR, cs.AI
发布日期: 2026-04-20
备注: Accepted by ACL 26 Findings
💡 一句话要点
揭示代码大语言模型中因Tokenization导致的密钥泄露风险
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 代码大语言模型 密钥泄露 Tokenization 字节对编码 乱码偏差
📋 核心要点
- 代码大语言模型(CLLM)存在密钥泄露风险,源于其记忆能力,但具体原因尚不明确。
- 该研究发现,Byte-Pair Encoding (BPE) tokenization 过程中的“乱码偏差”是导致密钥泄露的重要因素。
- 研究通过数值实验验证了token分布差异是“乱码偏差”的根本原因,并探讨了其在更大词汇量下的表现。
📝 摘要(中文)
代码密钥是软件开发者的敏感资产,其泄露会带来严重的安全风险。尽管由代码大语言模型(CLLM)驱动的AI代码助手发展迅速,但研究表明,由于臭名昭著的记忆现象,CLLM会无意中泄露这些密钥。本研究首先揭示了字节对编码(BPE)tokenization导致了密钥记忆的意外行为,我们称之为“乱码偏差”。具体来说,我们发现一些密钥最容易被CLLM记住。这些密钥具有高字符级熵,但低token级熵。然后,本文用数值数据支持了这种有偏差的说法。我们发现偏差的根源在于CLLM训练数据和密钥数据之间的token分布差异。我们进一步讨论了“更大词汇量”趋势下乱码偏差的体现。最后,我们讨论了潜在的缓解策略以及对当前tokenizer设计的更广泛影响。
🔬 方法详解
问题定义:代码大语言模型(CLLM)在生成代码时,会意外泄露软件开发者的敏感密钥。现有方法未能充分理解和解决由tokenization过程引起的密钥泄露风险,尤其是在BPE tokenization下,某些特定类型的密钥更容易被模型记住并泄露。
核心思路:该研究的核心思路是揭示BPE tokenization过程中的“乱码偏差”(gibberish bias)现象。研究者认为,某些密钥由于其特殊的字符分布特性,在经过BPE tokenization后,会产生低token级熵,从而更容易被CLLM记忆和泄露。这种偏差源于CLLM训练数据和密钥数据之间的token分布差异。
技术框架:该研究主要通过实验分析来验证“乱码偏差”的存在和影响。首先,研究者识别出具有高字符级熵和低token级熵的密钥,并验证这些密钥更容易被CLLM记住。然后,研究者分析CLLM训练数据和密钥数据的token分布,揭示两者之间的差异。最后,研究者探讨了更大词汇量对“乱码偏差”的影响。
关键创新:该研究最重要的技术创新点在于发现了BPE tokenization过程中的“乱码偏差”现象,并将其与CLLM的密钥泄露风险联系起来。该研究首次从tokenization的角度解释了CLLM的密钥泄露行为,为后续的研究和防御提供了新的视角。
关键设计:研究中涉及的关键设计包括:1) 密钥的字符级熵和token级熵的计算方法;2) CLLM训练数据和密钥数据的token分布分析方法;3) 实验中使用的CLLM模型和数据集的选择;4) 用于评估密钥泄露风险的指标。
🖼️ 关键图片
📊 实验亮点
研究发现,具有高字符级熵和低token级熵的密钥更容易被CLLM记住并泄露。实验验证了token分布差异是导致“乱码偏差”的根本原因。研究还探讨了更大词汇量对“乱码偏差”的影响,为缓解密钥泄露风险提供了新的思路。
🎯 应用场景
该研究成果可应用于提升代码大语言模型的安全性,降低密钥泄露风险。通过改进tokenization算法或调整训练数据分布,可以减轻“乱码偏差”,从而提高CLLM在处理敏感代码时的安全性。此外,该研究也为tokenizer的设计提供了新的思路,有助于开发更安全的AI代码助手。
📄 摘要(原文)
Code secrets are sensitive assets for software developers, and their leakage poses significant cybersecurity risks. While the rapid development of AI code assistants powered by Code Large Language Models (CLLMs), CLLMs are shown to inadvertently leak such secrets due to a notorious memorization phenomenon. This study first reveals that Byte-Pair Encoding (BPE) tokenization leads to unexpected behavior of secret memorization, which we term as \textit{gibberish bias}. Specifically, we identified that some secrets are among the easiest for CLLMs to memorize. These secrets yield high character-level entropy, but low token-level entropy. Then, this paper supports the biased claim with numerical data. We identified that the roots of the bias are the token distribution shift between the CLLM training data and the secret data. We further discuss how gibberish bias manifests under the ``larger vocabulary'' trend. To conclude the paper, we discuss potential mitigation strategies and the broader implications on current tokenizer design.