Process or Result? Manipulated Ending Tokens Can Mislead Reasoning LLMs to Ignore the Correct Reasoning Steps

📄 arXiv: 2503.19326v2 📥 PDF

作者: Yu Cui, Bryan Hooi, Yujun Cai, Yiwei Wang

分类: cs.AI

发布日期: 2025-03-25 (更新: 2025-04-01)


💡 一句话要点

Compromising Thought:操纵推理LLM的结尾Token可使其忽略正确推理步骤

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理鲁棒性 链式思考 安全漏洞 Compromising Thought

📋 核心要点

  1. 现有推理LLM在长链推理中表现出色,但其对输入推理链中细微错误的抵抗力未知。
  2. 论文提出“Compromising Thought”(CPT)概念,即操纵推理链结尾token中的计算结果,观察模型是否会忽略正确的推理步骤。
  3. 实验表明,模型难以识别和纠正这些操纵,且结尾token的局部修改比结构性修改影响更大,DeepSeek-R1甚至会停止推理。

📝 摘要(中文)

最近的推理大型语言模型(LLMs)通过长链式思考在数学推理能力方面表现出显著的改进。这些模型的推理tokens能够在推理链中进行自我纠正,从而增强了鲁棒性。这促使我们进行探索:推理LLMs在输入推理链中存在细微错误时有多脆弱?我们引入了“Compromising Thought”(CPT),这是一种漏洞,即当模型接收到的推理tokens包含被操纵的计算结果时,它们倾向于忽略正确的推理步骤,转而采用不正确的结果。通过对多个推理LLMs的系统评估,我们设计了三种越来越明确的提示方法来衡量CPT抵抗力,结果表明模型在识别和纠正这些操纵方面存在显著困难。值得注意的是,与现有研究表明结构改变比内容修改对模型性能的影响更大相反,我们发现局部结尾token操纵对推理结果的影响大于结构改变。此外,我们发现DeepSeek-R1中存在一个安全漏洞,即篡改的推理tokens可能触发完全停止推理。我们的工作增强了对推理鲁棒性的理解,并强调了推理密集型应用的安全考虑。

🔬 方法详解

问题定义:论文旨在研究推理大型语言模型(LLMs)在面对被操纵的推理链输入时,其推理的鲁棒性。现有方法主要关注模型结构或训练方式的改进,而忽略了输入推理链本身可能存在的漏洞,例如推理步骤中的错误计算结果。这种漏洞可能导致模型忽略正确的推理步骤,从而产生错误的最终答案。

核心思路:论文的核心思路是人为地在推理链的结尾token中引入错误,即“Compromising Thought”(CPT),然后观察模型是否能够识别并纠正这些错误。通过这种方式,可以评估模型对输入推理链中细微错误的抵抗能力,并揭示模型在推理过程中的潜在脆弱性。

技术框架:论文采用了一种系统性的评估框架,包括以下几个主要步骤: 1. 选择推理LLM:选择多个具有代表性的推理LLM进行评估。 2. 设计提示方法:设计三种越来越明确的提示方法来衡量CPT抵抗力,包括: * 基本提示:直接提供包含错误结果的推理链。 * 明确提示:明确指出推理链中可能存在错误。 * 对比提示:提供包含正确和错误结果的两个推理链,要求模型选择。 3. 生成推理链:使用选定的LLM生成推理链,并在结尾token中引入人为错误。 4. 评估模型性能:使用不同的提示方法,评估模型识别和纠正错误的能力,并分析错误类型和原因。

关键创新:论文的关键创新在于: 1. 提出“Compromising Thought”(CPT)概念:首次关注推理链输入中的细微错误对模型推理的影响。 2. 系统性的评估框架:设计了多种提示方法,全面评估模型对CPT的抵抗能力。 3. 发现结尾token操纵的影响大于结构改变:与现有研究不同,论文发现局部结尾token的操纵对推理结果的影响更大。 4. 揭示DeepSeek-R1的安全漏洞:发现篡改的推理tokens可能导致DeepSeek-R1完全停止推理。

关键设计:论文的关键设计包括: 1. 三种提示方法的设计:从基本提示到对比提示,逐步增加提示的明确性,以更全面地评估模型的CPT抵抗力。 2. 错误引入方式:在结尾token中引入不同类型的错误,例如计算错误、逻辑错误等,以评估模型对不同类型错误的敏感性。 3. 评估指标的选择:使用准确率、纠错率等指标来量化模型识别和纠正错误的能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,推理LLM在面对CPT时表现出显著的脆弱性,即使在明确提示的情况下,模型也难以识别和纠正错误。更令人惊讶的是,局部结尾token的操纵对推理结果的影响大于结构改变。此外,DeepSeek-R1存在安全漏洞,篡改的推理tokens可能导致其完全停止推理。这些发现强调了推理LLM在实际应用中面临的安全风险。

🎯 应用场景

该研究成果可应用于提升推理密集型应用的安全性和可靠性,例如金融风险评估、医疗诊断辅助等领域。通过提高模型对输入推理链中错误的抵抗能力,可以减少因输入错误导致的决策失误,从而提高应用的整体性能和安全性。未来的研究可以探索更有效的防御机制,例如错误检测和纠正算法,以进一步增强推理LLM的鲁棒性。

📄 摘要(原文)

Recent reasoning large language models (LLMs) have demonstrated remarkable improvements in mathematical reasoning capabilities through long Chain-of-Thought. The reasoning tokens of these models enable self-correction within reasoning chains, enhancing robustness. This motivates our exploration: how vulnerable are reasoning LLMs to subtle errors in their input reasoning chains? We introduce "Compromising Thought" (CPT), a vulnerability where models presented with reasoning tokens containing manipulated calculation results tend to ignore correct reasoning steps and adopt incorrect results instead. Through systematic evaluation across multiple reasoning LLMs, we design three increasingly explicit prompting methods to measure CPT resistance, revealing that models struggle significantly to identify and correct these manipulations. Notably, contrary to existing research suggesting structural alterations affect model performance more than content modifications, we find that local ending token manipulations have greater impact on reasoning outcomes than structural changes. Moreover, we discover a security vulnerability in DeepSeek-R1 where tampered reasoning tokens can trigger complete reasoning cessation. Our work enhances understanding of reasoning robustness and highlights security considerations for reasoning-intensive applications.