LLM Self-Recognition: Steering and Retrieving Activation Signatures

📄 arXiv: 2606.06315v1 📥 PDF

作者: Thibaud Ardoin, Jonas Schäfer, Gerhard Wunder

分类: cs.AI

发布日期: 2026-06-04

备注: To appear in Proceedings of the 43rd International Conference on Machine Learning (ICML 2026)


💡 一句话要点

提出自我识别机制以增强大型语言模型的输出归属能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自我识别 文本生成 激活信号 内容检测 机器学习 模型解释性

📋 核心要点

  1. 现有方法在识别AI生成内容时面临挑战,尤其是在低熵场景下的可靠性不足。
  2. 论文提出通过引导内部残差流与随机稀疏向量结合,创建可检测的指纹以实现自我识别。
  3. 实验结果显示,该方法在多个检测设置下准确率超过98%,且生成文本质量未受影响。

📝 摘要(中文)

近年来,解释性研究表明,大型语言模型(LLMs)在生成文本中隐含编码了自我识别的信号。本文展示了这种能力在低熵场景下的可靠性,并通过有针对性的干预进行增强。通过在生成过程中用随机稀疏向量引导内部残差流,我们创建了可检测的指纹,能够将特定文本归属到特定的LLM。该信号可以从作为检测器的LLM的激活中恢复,多个检测设置下的准确率超过98%,同时保持生成文本的质量。随着AI生成内容的普及,该方法为传统检测器提供了一种实用的替代方案,利用模型的自然表示结构进行归属,而不是外部嵌入信号。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在生成文本时的自我识别能力不足的问题,尤其是在低熵场景下的可靠性不足。现有方法往往依赖外部信号嵌入,导致归属能力受限。

核心思路:论文的核心思路是通过引导内部残差流与随机稀疏向量结合,创造出可检测的指纹,从而实现对生成文本的自我识别。这种设计利用了模型内部的结构特征,避免了外部信号的干扰。

技术框架:整体架构包括生成阶段和检测阶段。在生成阶段,通过引导残差流生成文本;在检测阶段,利用激活信号恢复文本的归属信息。主要模块包括生成器、激活检测器和指纹提取器。

关键创新:最重要的技术创新在于建立了LLMs的可靠自我识别能力,并提出了一种简单的引导机制,能够在不降低生成文本质量的情况下实现多LLM的识别。这与传统方法的外部信号嵌入形成了本质区别。

关键设计:在参数设置上,采用随机稀疏向量作为引导信号,损失函数设计为优化生成文本的质量与指纹的可检测性之间的平衡。网络结构上,保持了LLM的原有架构,确保生成过程的流畅性与高效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,所提出的方法在多个检测设置下的准确率超过98%,显著优于传统检测器,同时保持生成文本的质量。这一成果表明,利用模型内部结构进行自我识别具有很高的实用性和有效性。

🎯 应用场景

该研究的潜在应用领域包括内容生成、文本归属分析和AI生成内容的检测。通过利用模型的自我识别能力,可以有效提高对AI生成内容的监测和管理,具有重要的实际价值和未来影响,尤其是在内容审核和版权保护方面。

📄 摘要(原文)

Recent advances in interpretability suggest that large language models (LLMs) implicitly encode signals in their generated text that enable self-recognition of their outputs. We demonstrate that this capability is reliable, even in low-entropy scenarios, and that it can be amplified through targeted intervention. By steering the internal residual stream during generation with a random sparse vector, we create a detectable fingerprint that enables attribution of a given text to a specific LLM. This signal is recoverable from the activations of an LLM used as a detector, achieving over 98% accuracy across multiple detection settings while preserving the quality of generated text. As AI-generated content proliferates, this approach offers a practical alternative to traditional detectors by leveraging the model's natural representation structure for attribution rather than embedding a signal externally. Our contributions include: (i) establishing reliable self-recognition capabilities in LLMs, (ii) a simple steering mechanism enabling multi-LLM identification with no quality degradation, (iii) demonstrating that activation spaces contain exploitable structure for encoding signals without semantic interference.