Lie Detector: Unified Backdoor Detection via Cross-Examination Framework

📄 arXiv: 2503.16872v2 📥 PDF

作者: Xuan Wang, Siyuan Liang, Dongping Liao, Han Fang, Aishan Liu, Xiaochun Cao, Yu-liang Lu, Ee-Chien Chang, Xitong Gao

分类: cs.LG, cs.CV

发布日期: 2025-03-21 (更新: 2025-04-01)


💡 一句话要点

提出统一的后门检测框架以解决安全风险问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 后门检测 深度学习安全 模型鲁棒性 多模态学习 交叉检验

📋 核心要点

  1. 现有的后门检测方法主要依赖统计分析,无法在不同学习范式下保持准确性,存在安全隐患。
  2. 本文提出了一种统一的后门检测框架,通过交叉检验模型不一致性来提高检测的准确性和鲁棒性。
  3. 实验结果显示,本文方法在多种学习任务上均显著提升检测性能,尤其是在多模态大语言模型中首次有效检测后门。

📝 摘要(中文)

在数据和计算资源有限的情况下,机构常常将模型训练外包给第三方,假设其遵循预定的训练协议。然而,这种做法可能引入严重的安全风险,攻击者可能会通过污染训练数据在模型中嵌入后门。现有检测方法主要依赖统计分析,往往无法在不同学习范式下保持普遍准确的检测效果。为了解决这一挑战,本文提出了一种在半诚实环境下的统一后门检测框架,利用两个独立服务提供者之间模型不一致性的交叉检验。我们集成了中心核对齐技术,以实现不同模型架构和学习范式之间的鲁棒特征相似性测量,从而精确恢复和识别后门触发器。此外,我们引入了后门微调敏感性分析,以区分后门触发器和对抗扰动,显著减少误报。实验结果表明,本文方法在监督、半监督和自回归学习任务上,分别比现有最优基线提高了5.4%、1.6%和11.9%的检测性能。

🔬 方法详解

问题定义:本文旨在解决在半诚实环境中,模型训练外包可能导致的后门攻击问题。现有方法在不同学习范式下的检测准确性不足,容易受到攻击者的影响。

核心思路:提出的框架通过交叉检验两个独立服务提供者的模型不一致性,结合中心核对齐技术,增强特征相似性测量,从而提高后门触发器的识别精度。

技术框架:整体架构包括数据收集、模型训练、特征提取和后门检测四个主要模块。首先收集来自两个服务提供者的模型输出,然后进行特征对齐和不一致性分析,最后识别潜在的后门触发器。

关键创新:本研究的创新点在于首次有效地在多模态大语言模型中检测后门,且通过引入后门微调敏感性分析,显著降低了误报率。

关键设计:在技术细节上,采用中心核对齐作为特征相似性度量,设计了特定的损失函数以优化模型的鲁棒性,并在不同学习任务中进行了参数调优以确保最佳性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,本文方法在监督、半监督和自回归学习任务上,分别比现有最优基线提高了5.4%、1.6%和11.9%的检测性能,尤其在多模态大语言模型中首次实现有效后门检测,显示出其广泛的适用性。

🎯 应用场景

该研究的潜在应用领域包括金融、医疗和智能制造等对安全性要求高的行业。通过有效检测后门攻击,可以提高模型的安全性和可靠性,保护敏感数据不被恶意利用。未来,该框架有望在更广泛的深度学习应用中推广,提升整体安全防护水平。

📄 摘要(原文)

Institutions with limited data and computing resources often outsource model training to third-party providers in a semi-honest setting, assuming adherence to prescribed training protocols with pre-defined learning paradigm (e.g., supervised or semi-supervised learning). However, this practice can introduce severe security risks, as adversaries may poison the training data to embed backdoors into the resulting model. Existing detection approaches predominantly rely on statistical analyses, which often fail to maintain universally accurate detection accuracy across different learning paradigms. To address this challenge, we propose a unified backdoor detection framework in the semi-honest setting that exploits cross-examination of model inconsistencies between two independent service providers. Specifically, we integrate central kernel alignment to enable robust feature similarity measurements across different model architectures and learning paradigms, thereby facilitating precise recovery and identification of backdoor triggers. We further introduce backdoor fine-tuning sensitivity analysis to distinguish backdoor triggers from adversarial perturbations, substantially reducing false positives. Extensive experiments demonstrate that our method achieves superior detection performance, improving accuracy by 5.4%, 1.6%, and 11.9% over SoTA baselines across supervised, semi-supervised, and autoregressive learning tasks, respectively. Notably, it is the first to effectively detect backdoors in multimodal large language models, further highlighting its broad applicability and advancing secure deep learning.