CTCC: A Robust and Stealthy Fingerprinting Framework for Large Language Models via Cross-Turn Contextual Correlation Backdoor
作者: Zhenhua Xu, Xixiang Zhao, Xubin Yue, Shengwei Tian, Changting Lin, Meng Han
分类: cs.CL, cs.AI
发布日期: 2025-09-05
备注: Accepted by EMNLP2025 MainConference
🔗 代码/项目: GITHUB
💡 一句话要点
提出CTCC:一种鲁棒且隐蔽的跨轮次上下文相关后门指纹框架,用于保护大型语言模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 指纹识别 知识产权保护 上下文相关性 后门攻击
📋 核心要点
- 现有LLM指纹识别方法在隐蔽性、鲁棒性和泛化性之间存在权衡,容易被检测、攻击或失效,无法满足实际应用需求。
- CTCC通过编码跨多轮对话的上下文相关性,例如反事实,实现隐蔽且鲁棒的指纹嵌入,避免了对token级别或单轮触发的依赖。
- 实验表明,CTCC在多个LLM架构上实现了比现有方法更强的隐蔽性和鲁棒性,为LLM所有权验证提供了一种可靠的解决方案。
📝 摘要(中文)
大型语言模型(LLMs)的广泛部署加剧了人们对知识产权(IP)保护的担忧,因为模型盗窃和未经授权的再分发变得越来越可行。为了解决这个问题,模型指纹识别旨在将可验证的所有权痕迹嵌入到LLM中。然而,现有的方法在隐蔽性、鲁棒性和泛化性之间面临着固有的权衡,要么可以通过分布偏移来检测,要么容易受到对抗性修改的影响,要么一旦指纹泄露就很容易失效。在这项工作中,我们介绍了一种新颖的规则驱动的指纹识别框架CTCC,该框架编码了跨多个对话轮次的上下文相关性,例如反事实,而不是依赖于token级别的或单轮次的触发器。CTCC支持在黑盒访问下进行指纹验证,同时减少误报和指纹泄露,即使部分触发器暴露,也支持在共享语义规则下进行连续构建。在多个LLM架构上进行的大量实验表明,CTCC始终比以前的工作实现更强的隐蔽性和鲁棒性。我们的发现使CTCC成为现实世界LLM部署场景中所有权验证的可靠且实用的解决方案。我们的代码和数据可在https://github.com/Xuzhenhua55/CTCC公开获得。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)的知识产权保护问题,特别是模型盗窃和未经授权的再分发。现有的指纹识别方法通常依赖于token级别的触发器或单轮对话,容易被检测(隐蔽性差)、被对抗攻击修改(鲁棒性差)或在指纹泄露后失效(泛化性差)。
核心思路:CTCC的核心思路是利用跨多轮对话的上下文相关性来嵌入指纹。具体来说,它不依赖于单个token或单轮对话中的特定模式,而是通过预定义的语义规则,在多轮对话中引入反事实等上下文关联,使得指纹更加隐蔽且难以被移除。这种设计使得即使部分触发器暴露,也能基于共享语义规则进行持续构建,增强了指纹的鲁棒性。
技术框架:CTCC框架主要包含指纹嵌入和指纹验证两个阶段。在指纹嵌入阶段,首先定义一系列语义规则,这些规则描述了多轮对话中不同上下文之间的关联。然后,根据这些规则,在训练数据中插入特定的触发序列,这些序列会引导模型学习到预定义的上下文相关性。在指纹验证阶段,给定一段对话,CTCC会检测其中是否存在预定义的上下文相关性,从而判断模型是否被植入了指纹。整个过程无需访问模型内部参数,属于黑盒验证。
关键创新:CTCC最重要的创新在于其利用跨轮次上下文相关性进行指纹嵌入。与传统的token级别或单轮触发方法相比,这种方法具有更高的隐蔽性和鲁棒性。此外,CTCC支持在共享语义规则下进行持续构建,即使部分触发器暴露,也能保持指纹的有效性。
关键设计:CTCC的关键设计包括:1) 语义规则的设计,需要保证规则的通用性和可验证性,同时避免引入明显的分布偏移;2) 触发序列的生成,需要保证触发序列能够有效地引导模型学习到预定义的上下文相关性,同时避免影响模型的生成质量;3) 指纹验证算法的设计,需要保证验证的准确性和效率,同时避免误报。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CTCC在多个LLM架构上实现了比现有方法更强的隐蔽性和鲁棒性。具体来说,CTCC在保持模型性能的同时,能够有效抵抗各种对抗攻击,并且即使部分触发器暴露,也能保持指纹的有效性。此外,CTCC还具有较低的误报率,能够准确地验证模型的所有权。
🎯 应用场景
CTCC可应用于大型语言模型的知识产权保护,防止模型盗窃和未经授权的再分发。它能够帮助模型开发者验证模型的所有权,并对侵权行为进行追溯。此外,CTCC还可以用于评估模型的安全性和鲁棒性,检测模型是否存在后门或漏洞。该技术在商业LLM服务、开源模型社区以及AI安全领域具有广泛的应用前景。
📄 摘要(原文)
The widespread deployment of large language models (LLMs) has intensified concerns around intellectual property (IP) protection, as model theft and unauthorized redistribution become increasingly feasible. To address this, model fingerprinting aims to embed verifiable ownership traces into LLMs. However, existing methods face inherent trade-offs between stealthness, robustness, and generalizability, being either detectable via distributional shifts, vulnerable to adversarial modifications, or easily invalidated once the fingerprint is revealed. In this work, we introduce CTCC, a novel rule-driven fingerprinting framework that encodes contextual correlations across multiple dialogue turns, such as counterfactual, rather than relying on token-level or single-turn triggers. CTCC enables fingerprint verification under black-box access while mitigating false positives and fingerprint leakage, supporting continuous construction under a shared semantic rule even if partial triggers are exposed. Extensive experiments across multiple LLM architectures demonstrate that CTCC consistently achieves stronger stealth and robustness than prior work. Our findings position CTCC as a reliable and practical solution for ownership verification in real-world LLM deployment scenarios. Our code and data are publicly available at https://github.com/Xuzhenhua55/CTCC.