CoT is Not the Chain of Truth: An Empirical Internal Analysis of Reasoning LLMs for Fake News Generation

作者: Zhao Tong, Chunlin Gong, Yiping Zhang, Qiang Liu, Xingcheng Xu, Shu Wu, Haichao Shi, Xiao-Yu Zhang

分类: cs.CL

发布日期: 2026-02-04

备注: 28 pages, 35 figures

💡 一句话要点

揭示推理LLM生成虚假新闻时CoT的潜在风险，即使拒绝请求也可能包含不安全叙事。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 虚假新闻生成 思维链 安全性分析 注意力机制 雅可比矩阵 可解释性

📋 核心要点

现有LLM安全评估主要依赖最终输出，忽略了CoT推理过程中的潜在风险，即使模型拒绝请求，内部可能仍存在不安全叙事。
论文提出一个统一的安全分析框架，通过解构CoT生成过程，并使用基于雅可比矩阵的谱度量评估注意力头的作用。
实验表明，激活思维模式会显著增加生成风险，关键决策集中在少数中等深度层，并可精确定位负责风险的注意力头。

📝 摘要（中文）

大型语言模型（LLM）通常通过其最终输出来评估其安全性，例如生成标题或捏造新闻，并假设拒绝有害请求意味着整个过程都是安全的。本研究挑战了这一假设，揭示了在生成虚假新闻时，即使模型拒绝了有害请求，其思维链（CoT）推理在内部仍然可能包含和传播不安全的叙述。为了分析这种现象，我们引入了一个统一的安全分析框架，该框架系统地解构了跨模型层的CoT生成，并通过基于雅可比矩阵的谱度量评估了各个注意力头的角色。在该框架内，我们引入了三个可解释的度量：稳定性、几何形状和能量，以量化特定注意力头如何响应或嵌入欺骗性推理模式。对多个面向推理的LLM进行的大量实验表明，当思维模式被激活时，生成风险会显著上升，并且关键的路由决策集中在少数几个连续的中等深度层中。通过精确识别负责这种发散的注意力头，我们的工作挑战了拒绝意味着安全的假设，并为减轻潜在的推理风险提供了一个新的理解视角。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在生成虚假新闻时，即使拒绝有害请求，其内部推理过程（Chain-of-Thought, CoT）仍然可能包含和传播不安全叙述的问题。现有方法主要关注最终输出的安全性，而忽略了CoT推理过程中的潜在风险，这使得模型在表面上拒绝有害请求的同时，内部仍然可能存在欺骗性推理模式。

核心思路：论文的核心思路是通过解构CoT生成过程，并分析模型内部的注意力机制，来识别和量化不安全叙述的传播。通过引入稳定性、几何形状和能量三个可解释的度量，来量化特定注意力头如何响应或嵌入欺骗性推理模式。这种方法能够深入了解模型内部的推理过程，从而更有效地识别和减轻潜在的推理风险。

技术框架：论文提出的安全分析框架包含以下几个主要步骤：1) 系统地解构跨模型层的CoT生成过程；2) 通过基于雅可比矩阵的谱度量评估各个注意力头的角色；3) 引入稳定性、几何形状和能量三个可解释的度量，以量化注意力头的响应或嵌入欺骗性推理模式。整个框架旨在提供一个全面的视角，以理解和分析LLM在生成虚假新闻时的内部推理过程。

关键创新：论文最重要的技术创新点在于提出了一个统一的安全分析框架，该框架能够系统地解构CoT生成过程，并通过可解释的度量来量化注意力头的行为。与现有方法相比，该框架不仅关注最终输出的安全性，还深入分析了模型内部的推理过程，从而能够更有效地识别和减轻潜在的推理风险。此外，基于雅可比矩阵的谱度量和三个可解释的度量（稳定性、几何形状和能量）也是该论文的关键创新。

关键设计：论文的关键设计包括：1) 使用雅可比矩阵来分析注意力头的行为，从而捕捉其对模型输出的影响；2) 引入稳定性、几何形状和能量三个可解释的度量，以量化注意力头的响应或嵌入欺骗性推理模式；3) 通过实验验证了该框架在多个面向推理的LLM上的有效性。具体的参数设置、损失函数和网络结构等技术细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，当思维模式被激活时，LLM生成虚假新闻的风险显著上升。研究发现，关键的路由决策集中在少数几个连续的中等深度层中，并且可以精确定位负责这种发散的注意力头。这些发现挑战了拒绝意味着安全的假设，并为减轻潜在的推理风险提供了一个新的理解视角。

🎯 应用场景

该研究成果可应用于提升大型语言模型在信息生成方面的安全性，尤其是在新闻生成、内容创作等领域。通过识别和控制模型内部的欺骗性推理模式，可以有效降低虚假信息传播的风险，提高信息的可信度。未来，该研究可进一步扩展到其他类型的生成任务，并为开发更安全的AI系统提供指导。

📄 摘要（原文）

From generating headlines to fabricating news, the Large Language Models (LLMs) are typically assessed by their final outputs, under the safety assumption that a refusal response signifies safe reasoning throughout the entire process. Challenging this assumption, our study reveals that during fake news generation, even when a model rejects a harmful request, its Chain-of-Thought (CoT) reasoning may still internally contain and propagate unsafe narratives. To analyze this phenomenon, we introduce a unified safety-analysis framework that systematically deconstructs CoT generation across model layers and evaluates the role of individual attention heads through Jacobian-based spectral metrics. Within this framework, we introduce three interpretable measures: stability, geometry, and energy to quantify how specific attention heads respond or embed deceptive reasoning patterns. Extensive experiments on multiple reasoning-oriented LLMs show that the generation risk rise significantly when the thinking mode is activated, where the critical routing decisions concentrated in only a few contiguous mid-depth layers. By precisely identifying the attention heads responsible for this divergence, our work challenges the assumption that refusal implies safety and provides a new understanding perspective for mitigating latent reasoning risks.

CoT is Not the Chain of Truth: An Empirical Internal Analysis of Reasoning LLMs for Fake News Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理