STAR: Detecting Inference-time Backdoors in LLM Reasoning via State-Transition Amplification Ratio
作者: Seong-Gyu Park, Sohee Park, Jisu Lee, Hyunsik Na, Daeseon Choi
分类: cs.CL, cs.CR, cs.LG
发布日期: 2026-01-13
备注: 16 pages, 5 figures
💡 一句话要点
STAR:通过状态转移放大率检测LLM推理时后门攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 后门攻击检测 推理安全 状态转移分析 异常检测
📋 核心要点
- 现有LLM推理时后门攻击能生成连贯的恶意推理路径,传统检测方法难以有效识别。
- STAR通过分析输出概率变化,量化恶意推理路径中状态转移的异常放大效应,从而检测后门。
- 实验表明,STAR在多种模型和数据集上均表现出近乎完美的检测性能,且效率远高于现有方法。
📝 摘要(中文)
当前的大型语言模型(LLM)越来越多地整合了诸如思维链(CoT)之类的推理机制。然而,这种显式的推理过程也暴露了一种新的攻击面,即推理时后门攻击,它可以在不改变模型参数的情况下注入恶意的推理路径。由于这些攻击会生成在语言上连贯的路径,因此它们可以有效地规避传统的检测方法。为了解决这个问题,我们提出了STAR(状态转移放大率),这是一个通过分析输出概率变化来检测后门攻击的框架。STAR利用了一种统计差异,即恶意输入诱导的路径表现出较高的后验概率,尽管该路径在模型的一般知识中具有较低的先验概率。我们量化了这种状态转移放大,并采用CUSUM算法来检测持续的异常。在各种模型(8B-70B)和五个基准数据集上的实验表明,STAR表现出强大的泛化能力,始终如一地实现了接近完美的性能(AUROC ≈ 1.0),并且效率比现有基线高出约42倍。此外,该框架还证明了其对试图绕过检测的自适应攻击的鲁棒性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)推理过程中存在的后门攻击检测问题。现有的后门攻击方法能够在不修改模型参数的情况下,通过注入恶意的推理路径来影响模型的输出。由于这些恶意路径在语言上具有连贯性,传统的检测方法难以有效识别,从而对LLM的安全性构成威胁。
核心思路:论文的核心思路是利用恶意输入诱导的推理路径在状态转移过程中表现出的异常放大效应。具体来说,恶意路径通常具有较低的先验概率(即在模型的一般知识中不太可能发生),但由于后门的存在,其后验概率却很高。STAR通过量化这种先验概率和后验概率之间的差异,来检测潜在的后门攻击。
技术框架:STAR框架主要包含以下几个阶段:1) 状态转移概率计算:对于给定的输入和模型生成的推理路径,计算每个状态转移的先验概率和后验概率。2) 状态转移放大率计算:根据先验概率和后验概率,计算状态转移放大率,用于量化状态转移过程中的异常放大效应。3) 异常检测:使用CUSUM算法对状态转移放大率序列进行分析,检测是否存在持续的异常,从而判断是否存在后门攻击。
关键创新:STAR的关键创新在于提出了状态转移放大率(State-Transition Amplification Ratio)这一概念,并将其应用于后门攻击检测。与传统的检测方法相比,STAR能够更有效地捕捉恶意推理路径的异常特征,从而提高检测的准确性和鲁棒性。此外,STAR框架具有较高的效率,能够快速检测潜在的后门攻击。
关键设计:STAR的关键设计包括:1) 先验概率的估计:论文采用模型自身的语言模型能力来估计状态转移的先验概率。2) 后验概率的计算:后验概率直接从模型的输出概率分布中获得。3) CUSUM算法的参数设置:论文对CUSUM算法的参数进行了优化,以提高异常检测的灵敏度和准确性。
📊 实验亮点
实验结果表明,STAR在多种模型(8B-70B)和五个基准数据集上均表现出强大的泛化能力,始终如一地实现了接近完美的性能(AUROC ≈ 1.0)。与现有基线方法相比,STAR的效率提高了约42倍。此外,STAR还证明了其对试图绕过检测的自适应攻击的鲁棒性,表明该方法具有很强的实用价值。
🎯 应用场景
STAR可应用于各种需要使用LLM进行推理的场景,例如问答系统、对话系统、代码生成等。通过检测推理过程中的后门攻击,可以提高LLM的安全性,防止恶意用户利用后门来操纵模型的输出,从而保障系统的可靠性和可信度。该研究对于提升LLM在实际应用中的安全性具有重要意义。
📄 摘要(原文)
Recent LLMs increasingly integrate reasoning mechanisms like Chain-of-Thought (CoT). However, this explicit reasoning exposes a new attack surface for inference-time backdoors, which inject malicious reasoning paths without altering model parameters. Because these attacks generate linguistically coherent paths, they effectively evade conventional detection. To address this, we propose STAR (State-Transition Amplification Ratio), a framework that detects backdoors by analyzing output probability shifts. STAR exploits the statistical discrepancy where a malicious input-induced path exhibits high posterior probability despite a low prior probability in the model's general knowledge. We quantify this state-transition amplification and employ the CUSUM algorithm to detect persistent anomalies. Experiments across diverse models (8B-70B) and five benchmark datasets demonstrate that STAR exhibits robust generalization capabilities, consistently achieving near-perfect performance (AUROC $\approx$ 1.0) with approximately $42\times$ greater efficiency than existing baselines. Furthermore, the framework proves robust against adaptive attacks attempting to bypass detection.