Amplification Effects in Test-Time Reinforcement Learning: Safety and Reasoning Vulnerabilities
作者: Vanshaj Khattar, Md Rafi ur Rashid, Moumita Choudhury, Jing Liu, Toshiaki Koike-Akino, Ming Jin, Ye Wang
分类: cs.LG, cs.AI, cs.CL, cs.CR
发布日期: 2026-03-16
💡 一句话要点
研究表明,测试时强化学习易受有害提示注入攻击,导致安全性放大和推理能力下降。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 测试时训练 强化学习 大型语言模型 安全性 提示注入 放大效应 推理能力 对抗攻击
📋 核心要点
- 大型语言模型(LLM)的测试时训练(TTT)虽然能提升推理能力,但也容易受到恶意提示注入攻击。
- 论文研究了基于自洽性的测试时强化学习(TTRL)的安全性,发现恶意提示会放大模型的固有安全或危害行为。
- 实验表明,恶意提示注入不仅会放大模型行为,还会降低推理能力,并可通过特定设计的提示进一步利用。
📝 摘要(中文)
本文研究了测试时训练(TTT)方法,特别是测试时强化学习(TTRL)的安全性漏洞。TTRL通过奖励自洽性来提升大型语言模型(LLM)的推理能力。研究表明,在TTRL过程中,有害提示注入会放大模型已有的行为,即当基础模型相对安全时,会放大其安全性;当模型容易受到注入数据攻击时,会放大其危害性。在这两种情况下,推理能力都会下降,这被称为“推理税”。此外,研究还表明,可以使用专门设计的“HarmInject”提示来对抗性地利用TTRL等TTT方法,迫使模型同时回答越狱和推理查询,从而导致更强的危害性放大。总体而言,研究结果表明,通过促进自洽性来增强LLM推理能力的TTT方法可能导致放大行为和推理能力下降,突出了开发更安全的TTT方法的需求。
🔬 方法详解
问题定义:论文旨在解决测试时训练(TTT)方法,特别是测试时强化学习(TTRL)在面对恶意提示注入时存在的安全漏洞问题。现有方法在提升LLM推理能力的同时,忽略了其对恶意输入的脆弱性,可能导致模型产生有害或不安全的输出。
核心思路:论文的核心思路是揭示TTRL在恶意提示注入下的“放大效应”,即恶意提示会放大模型固有的安全或危害倾向。通过分析这种放大效应,论文旨在强调现有TTT方法在安全性方面的不足,并呼吁开发更安全的TTT策略。
技术框架:论文主要研究了基于自洽性的TTRL方法。该方法通过多数投票来评估模型生成答案的自洽性,并将其作为强化学习的奖励信号,以提升模型的推理能力。论文通过设计不同的恶意提示,观察模型在TTRL过程中的行为变化,并评估其安全性和推理能力。
关键创新:论文的关键创新在于发现了TTRL在恶意提示注入下的“放大效应”和“推理税”。“放大效应”指的是恶意提示会放大模型固有的安全或危害倾向;“推理税”指的是恶意提示注入会导致模型推理能力的下降。此外,论文还提出了“HarmInject”提示,可以更有效地诱导模型产生有害输出。
关键设计:论文的关键设计包括:1) 设计不同类型的恶意提示,例如越狱提示和推理挑战提示,以评估模型的安全性;2) 使用多数投票作为奖励信号,鼓励模型生成自洽的答案;3) 提出“HarmInject”提示,通过将越狱和推理查询结合,更有效地诱导模型产生有害输出;4) 通过实验评估模型在不同提示下的安全性和推理能力,并分析“放大效应”和“推理税”的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TTRL在恶意提示注入下会产生显著的“放大效应”,即放大模型固有的安全或危害倾向。此外,恶意提示注入还会导致模型推理能力的下降,即“推理税”。通过使用“HarmInject”提示,可以更有效地诱导模型产生有害输出,进一步验证了TTRL在安全性方面的脆弱性。
🎯 应用场景
该研究成果对开发更安全可靠的大型语言模型具有重要意义。通过了解测试时训练方法在面对恶意输入时的脆弱性,可以指导研究人员设计更鲁棒的训练策略,例如引入对抗训练或安全约束,从而提高模型在实际应用中的安全性,避免产生有害或不安全的输出。
📄 摘要(原文)
Test-time training (TTT) has recently emerged as a promising method to improve the reasoning abilities of large language models (LLMs), in which the model directly learns from test data without access to labels. However, this reliance on test data also makes TTT methods vulnerable to harmful prompt injections. In this paper, we investigate safety vulnerabilities of TTT methods, where we study a representative self-consistency-based test-time learning method: test-time reinforcement learning (TTRL), a recent TTT method that improves LLM reasoning by rewarding self-consistency using majority vote as a reward signal. We show that harmful prompt injection during TTRL amplifies the model's existing behaviors, i.e., safety amplification when the base model is relatively safe, and harmfulness amplification when it is vulnerable to the injected data. In both cases, there is a decline in reasoning ability, which we refer to as the reasoning tax. We also show that TTT methods such as TTRL can be exploited adversarially using specially designed "HarmInject" prompts to force the model to answer jailbreak and reasoning queries together, resulting in stronger harmfulness amplification. Overall, our results highlight that TTT methods that enhance LLM reasoning by promoting self-consistency can lead to amplification behaviors and reasoning degradation, highlighting the need for safer TTT methods.