TraceRouter: Robust Safety for Large Foundation Models via Path-Level Intervention
作者: Chuancheng Shi, Shangze Li, Wenjun Lu, Wenhua Wu, Cong Wang, Zifeng Cheng, Fei Shen, Tat-Seng Chua
分类: cs.CV, cs.AI, cs.CY, cs.MM
发布日期: 2026-01-29
💡 一句话要点
提出TraceRouter以解决大型基础模型的安全性问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对抗性攻击 模型安全 路径级干预 因果传播 稀疏自编码器 特征影响分数 大型基础模型
📋 核心要点
- 现有防御方法主要依赖局部性假设,难以有效应对分布式的危害性语义。
- TraceRouter通过路径级干预,追踪并断开非法语义的因果传播电路,提升模型安全性。
- 实验结果显示,TraceRouter在对抗鲁棒性和实用性之间取得了显著的性能提升,超越了现有基线。
📝 摘要(中文)
尽管大型基础模型(LFM)具备强大能力,但仍然容易受到对抗性操控。目前的防御措施主要依赖于“局部性假设”,抑制孤立的神经元或特征。然而,危害性语义作为分布式的跨层电路存在,使得这种局部干预显得脆弱且对实用性有害。为了解决这一问题,本文提出了TraceRouter,一个路径级框架,能够追踪并断开非法语义的因果传播电路。TraceRouter分为三个阶段:首先,通过分析注意力偏差确定敏感的起始层;其次,利用稀疏自编码器和差异激活分析来解耦和隔离恶意特征;最后,通过零清除干预获得的特征影响分数,将这些特征映射到下游因果路径。通过选择性地抑制这些因果链,TraceRouter有效地切断了有害信息的流动,同时保留了正交计算路径。大量实验表明,TraceRouter在对抗鲁棒性和一般实用性之间实现了显著的优越平衡。
🔬 方法详解
问题定义:本文旨在解决大型基础模型在面对对抗性操控时的脆弱性,现有方法因依赖局部性假设而难以有效应对分布式的危害性语义。
核心思路:TraceRouter的核心思路是通过路径级干预,追踪并断开非法语义的因果传播电路,从而提升模型的安全性和鲁棒性。
技术框架:TraceRouter的整体架构分为三个主要阶段:第一阶段,通过分析注意力偏差确定敏感的起始层;第二阶段,利用稀疏自编码器和差异激活分析解耦和隔离恶意特征;第三阶段,通过零清除干预获得的特征影响分数,将特征映射到下游因果路径。
关键创新:TraceRouter的关键创新在于其路径级干预方法,能够有效切断有害信息流动,而不影响正交计算路径,这与现有方法的局部干预方式形成了本质区别。
关键设计:在设计中,采用了稀疏自编码器和差异激活分析等技术细节,以确保恶意特征的有效隔离和因果链的精确抑制。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TraceRouter在对抗鲁棒性方面显著优于现有最先进的基线,具体性能提升幅度达到XX%(具体数据待补充),同时保持了模型的实用性,展现出良好的应用前景。
🎯 应用场景
TraceRouter的研究成果具有广泛的应用潜力,尤其在安全性要求高的领域,如金融、医疗和自动驾驶等。通过提升大型基础模型的鲁棒性,该技术能够有效防止对抗性攻击,保障系统的可靠性与安全性,未来可能对AI系统的安全标准制定产生深远影响。
📄 摘要(原文)
Despite their capabilities, large foundation models (LFMs) remain susceptible to adversarial manipulation. Current defenses predominantly rely on the "locality hypothesis", suppressing isolated neurons or features. However, harmful semantics act as distributed, cross-layer circuits, rendering such localized interventions brittle and detrimental to utility. To bridge this gap, we propose \textbf{TraceRouter}, a path-level framework that traces and disconnects the causal propagation circuits of illicit semantics. TraceRouter operates in three stages: (1) it pinpoints a sensitive onset layer by analyzing attention divergence; (2) it leverages sparse autoencoders (SAEs) and differential activation analysis to disentangle and isolate malicious features; and (3) it maps these features to downstream causal pathways via feature influence scores (FIS) derived from zero-out interventions. By selectively suppressing these causal chains, TraceRouter physically severs the flow of harmful information while leaving orthogonal computation routes intact. Extensive experiments demonstrate that TraceRouter significantly outperforms state-of-the-art baselines, achieving a superior trade-off between adversarial robustness and general utility. Our code will be publicly released. WARNING: This paper contains unsafe model responses.