When Truthful Representations Flip Under Deceptive Instructions?

📄 arXiv: 2507.22149v4 📥 PDF

作者: Xianxuan Long, Yao Fu, Runchao Li, Mu Sheng, Haotian Yu, Xiaotian Han, Pan Li

分类: cs.AI, cs.LG

发布日期: 2025-07-29 (更新: 2025-10-29)


💡 一句话要点

研究欺骗性指令下LLM内部表征的翻转现象,揭示不诚实行为的特征。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 欺骗性指令 内部表征 稀疏自编码器 线性探针 事实验证 安全性 可解释性

📋 核心要点

  1. 大型语言模型容易受到恶意指令的影响,产生欺骗性回复,但对其内部表征的影响机制尚不明确。
  2. 该研究通过分析LLM在不同指令下的内部表征变化,揭示欺骗性指令如何导致表征“翻转”。
  3. 实验表明,欺骗性指令引起显著的表征转移,集中在早期到中期层,并且可以通过稀疏自编码器检测到。

📝 摘要(中文)

大型语言模型(LLM)容易受到恶意构造的指令的影响,从而生成欺骗性回复,这带来了安全挑战。目前,对于欺骗性指令如何改变LLM的内部表征(与真实指令相比)的理解,除了输出分析之外仍然不足。为了弥补这一差距,我们研究了在欺骗性指令与真实/中性指令下,这些表征“翻转”的时间和方式,例如从真实到欺骗。通过分析Llama-3.1-8B-Instruct和Gemma-2-9B-Instruct在事实验证任务中的内部表征,我们发现基于内部表征,可以通过线性探针跨所有条件预测模型指示的True/False输出。此外,我们使用稀疏自编码器(SAE)表明,与真实/中性表征(它们是相似的)相比,欺骗性指令会引起显著的表征转移,这些转移集中在早期到中期层,并且即使在复杂的数据集上也可检测到。我们还识别出对欺骗性指令高度敏感的特定SAE特征,并使用有针对性的可视化来确认不同的真实/欺骗性表征子空间。我们的分析精确地指出了指示性不诚实的层级和特征级别的相关性,为LLM检测和控制提供了见解。我们的发现揭示了欺骗的特征和层级签名,为检测和减轻LLM中指示性不诚实行为提供了新的见解。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在接收到欺骗性指令时,其内部表征如何变化的问题。现有方法主要集中在分析LLM的输出结果,而忽略了内部表征的变化过程,这使得我们难以理解和控制LLM的欺骗行为。因此,理解欺骗性指令如何影响LLM的内部表征,对于提高LLM的安全性至关重要。

核心思路:论文的核心思路是通过比较LLM在接收到真实、中性和欺骗性指令时的内部表征,来揭示欺骗性指令对LLM内部状态的影响。具体来说,论文使用线性探针来预测LLM的输出,并使用稀疏自编码器(SAE)来分析内部表征的变化。通过这种方式,论文试图找到欺骗性指令在LLM内部留下的“痕迹”,从而为检测和减轻LLM的欺骗行为提供依据。

技术框架:论文的整体框架包括以下几个主要步骤:1) 选择LLM模型(Llama-3.1-8B-Instruct和Gemma-2-9B-Instruct)和事实验证任务;2) 构建包含真实、中性和欺骗性指令的数据集;3) 使用LLM处理数据集,并提取其内部表征;4) 使用线性探针预测LLM的输出,并评估预测准确率;5) 使用稀疏自编码器(SAE)分析内部表征的变化,并识别对欺骗性指令敏感的特征;6) 使用可视化技术展示真实和欺骗性表征的子空间。

关键创新:论文的关键创新在于:1) 首次系统性地研究了欺骗性指令对LLM内部表征的影响;2) 使用稀疏自编码器(SAE)来分析LLM的内部表征,并识别出对欺骗性指令敏感的特征;3) 通过可视化技术展示了真实和欺骗性表征的子空间,为理解LLM的欺骗行为提供了新的视角。与现有方法相比,该论文更加关注LLM的内部状态,而不仅仅是输出结果。

关键设计:论文的关键设计包括:1) 使用线性探针来预测LLM的输出,这是一种简单而有效的方法,可以评估LLM内部表征的质量;2) 使用稀疏自编码器(SAE)来分析LLM的内部表征,SAE可以学习到稀疏的特征表示,从而更容易识别对欺骗性指令敏感的特征;3) 使用有针对性的可视化技术,例如t-SNE,来展示真实和欺骗性表征的子空间,这有助于理解LLM的欺骗行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于LLM的内部表征,可以通过线性探针跨所有条件预测模型指示的True/False输出。此外,稀疏自编码器(SAE)分析表明,与真实/中性表征相比,欺骗性指令会引起显著的表征转移,这些转移集中在早期到中期层。研究还识别出对欺骗性指令高度敏感的特定SAE特征,并使用可视化确认了不同的真实/欺骗性表征子空间。

🎯 应用场景

该研究成果可应用于提高大型语言模型的安全性,例如开发检测和减轻欺骗性回复的算法。通过理解欺骗性指令如何影响LLM的内部表征,可以设计更有效的防御机制,防止LLM被恶意利用。此外,该研究还可以应用于评估LLM的鲁棒性和可靠性,确保LLM在各种场景下都能提供准确和可信的信息。

📄 摘要(原文)

Large language models (LLMs) tend to follow maliciously crafted instructions to generate deceptive responses, posing safety challenges. How deceptive instructions alter the internal representations of LLM compared to truthful ones remains poorly understood beyond output analysis. To bridge this gap, we investigate when and how these representations ``flip'', such as from truthful to deceptive, under deceptive versus truthful/neutral instructions. Analyzing the internal representations of Llama-3.1-8B-Instruct and Gemma-2-9B-Instruct on a factual verification task, we find the model's instructed True/False output is predictable via linear probes across all conditions based on the internal representation. Further, we use Sparse Autoencoders (SAEs) to show that the Deceptive instructions induce significant representational shifts compared to Truthful/Neutral representations (which are similar), concentrated in early-to-mid layers and detectable even on complex datasets. We also identify specific SAE features highly sensitive to deceptive instruction and use targeted visualizations to confirm distinct truthful/deceptive representational subspaces. % Our analysis pinpoints layer-wise and feature-level correlates of instructed dishonesty, offering insights for LLM detection and control. Our findings expose feature- and layer-level signatures of deception, offering new insights for detecting and mitigating instructed dishonesty in LLMs.