CoT is Not the Chain of Truth: An Empirical Internal Analysis of Reasoning LLMs for Fake News Generation
作者: Zhao Tong, Chunlin Gong, Yiping Zhang, Qiang Liu, Xingcheng Xu, Shu Wu, Haichao Shi, Xiao-Yu Zhang
分类: cs.CL
发布日期: 2026-02-04
备注: 28 pages, 35 figures
💡 一句话要点
揭示推理LLM生成虚假新闻时CoT的潜在风险,即使拒绝请求也可能包含不安全叙事。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 虚假新闻生成 思维链 安全性分析 注意力机制 雅可比矩阵 可解释性
📋 核心要点
- 现有LLM安全评估主要依赖最终输出,忽略了CoT推理过程中的潜在风险,即使模型拒绝请求,内部可能仍存在不安全叙事。
- 论文提出一个统一的安全分析框架,通过解构CoT生成过程,并使用基于雅可比矩阵的谱度量评估注意力头的作用。
- 实验表明,激活思维模式会显著增加生成风险,关键决策集中在少数中等深度层,并可精确定位负责风险的注意力头。
📝 摘要(中文)
大型语言模型(LLM)通常通过其最终输出来评估其安全性,例如生成标题或捏造新闻,并假设拒绝有害请求意味着整个过程都是安全的。本研究挑战了这一假设,揭示了在生成虚假新闻时,即使模型拒绝了有害请求,其思维链(CoT)推理在内部仍然可能包含和传播不安全的叙述。为了分析这种现象,我们引入了一个统一的安全分析框架,该框架系统地解构了跨模型层的CoT生成,并通过基于雅可比矩阵的谱度量评估了各个注意力头的角色。在该框架内,我们引入了三个可解释的度量:稳定性、几何形状和能量,以量化特定注意力头如何响应或嵌入欺骗性推理模式。对多个面向推理的LLM进行的大量实验表明,当思维模式被激活时,生成风险会显著上升,并且关键的路由决策集中在少数几个连续的中等深度层中。通过精确识别负责这种发散的注意力头,我们的工作挑战了拒绝意味着安全的假设,并为减轻潜在的推理风险提供了一个新的理解视角。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在生成虚假新闻时,即使拒绝有害请求,其内部推理过程(Chain-of-Thought, CoT)仍然可能包含和传播不安全叙述的问题。现有方法主要关注最终输出的安全性,而忽略了CoT推理过程中的潜在风险,这使得模型在表面上拒绝有害请求的同时,内部仍然可能存在欺骗性推理模式。
核心思路:论文的核心思路是通过解构CoT生成过程,并分析模型内部的注意力机制,来识别和量化不安全叙述的传播。通过引入稳定性、几何形状和能量三个可解释的度量,来量化特定注意力头如何响应或嵌入欺骗性推理模式。这种方法能够深入了解模型内部的推理过程,从而更有效地识别和减轻潜在的推理风险。
技术框架:论文提出的安全分析框架包含以下几个主要步骤:1) 系统地解构跨模型层的CoT生成过程;2) 通过基于雅可比矩阵的谱度量评估各个注意力头的角色;3) 引入稳定性、几何形状和能量三个可解释的度量,以量化注意力头的响应或嵌入欺骗性推理模式。整个框架旨在提供一个全面的视角,以理解和分析LLM在生成虚假新闻时的内部推理过程。
关键创新:论文最重要的技术创新点在于提出了一个统一的安全分析框架,该框架能够系统地解构CoT生成过程,并通过可解释的度量来量化注意力头的行为。与现有方法相比,该框架不仅关注最终输出的安全性,还深入分析了模型内部的推理过程,从而能够更有效地识别和减轻潜在的推理风险。此外,基于雅可比矩阵的谱度量和三个可解释的度量(稳定性、几何形状和能量)也是该论文的关键创新。
关键设计:论文的关键设计包括:1) 使用雅可比矩阵来分析注意力头的行为,从而捕捉其对模型输出的影响;2) 引入稳定性、几何形状和能量三个可解释的度量,以量化注意力头的响应或嵌入欺骗性推理模式;3) 通过实验验证了该框架在多个面向推理的LLM上的有效性。具体的参数设置、损失函数和网络结构等技术细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当思维模式被激活时,LLM生成虚假新闻的风险显著上升。研究发现,关键的路由决策集中在少数几个连续的中等深度层中,并且可以精确定位负责这种发散的注意力头。这些发现挑战了拒绝意味着安全的假设,并为减轻潜在的推理风险提供了一个新的理解视角。
🎯 应用场景
该研究成果可应用于提升大型语言模型在信息生成方面的安全性,尤其是在新闻生成、内容创作等领域。通过识别和控制模型内部的欺骗性推理模式,可以有效降低虚假信息传播的风险,提高信息的可信度。未来,该研究可进一步扩展到其他类型的生成任务,并为开发更安全的AI系统提供指导。
📄 摘要(原文)
From generating headlines to fabricating news, the Large Language Models (LLMs) are typically assessed by their final outputs, under the safety assumption that a refusal response signifies safe reasoning throughout the entire process. Challenging this assumption, our study reveals that during fake news generation, even when a model rejects a harmful request, its Chain-of-Thought (CoT) reasoning may still internally contain and propagate unsafe narratives. To analyze this phenomenon, we introduce a unified safety-analysis framework that systematically deconstructs CoT generation across model layers and evaluates the role of individual attention heads through Jacobian-based spectral metrics. Within this framework, we introduce three interpretable measures: stability, geometry, and energy to quantify how specific attention heads respond or embed deceptive reasoning patterns. Extensive experiments on multiple reasoning-oriented LLMs show that the generation risk rise significantly when the thinking mode is activated, where the critical routing decisions concentrated in only a few contiguous mid-depth layers. By precisely identifying the attention heads responsible for this divergence, our work challenges the assumption that refusal implies safety and provides a new understanding perspective for mitigating latent reasoning risks.