Your Compiler is Backdooring Your Model: Understanding and Exploiting Compilation Inconsistency Vulnerabilities in Deep Learning Compilers

📄 arXiv: 2509.11173v3 📥 PDF

作者: Simin Chen, Jinjun Peng, Yixin He, Junfeng Yang, Baishakhi Ray

分类: cs.CR, cs.AI, cs.LG, cs.SE

发布日期: 2025-09-14 (更新: 2025-10-27)

备注: This paper is accepted to IEEE S&P 2026, the code is available at https://github.com/SeekingDream/DLCompilerAttack


💡 一句话要点

揭示深度学习编译器漏洞:未经修改的编译器可引入模型后门

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 深度学习编译器 后门攻击 模型安全 编译优化 对抗样本 漏洞挖掘

📋 核心要点

  1. 现有深度学习编译器缺乏安全性考量,可能在编译过程中引入后门,导致模型行为异常。
  2. 该研究通过构造对抗样本和分析自然模型,揭示了未经修改的编译器可能引入模型语义改变的风险。
  3. 实验证明,攻击在多种编译器和硬件平台上有效,且难以被现有检测方法发现,突显了安全隐患。

📝 摘要(中文)

本文揭示了深度学习(DL)编译器设计中的一个根本性漏洞:未经修改的官方编译器是否会在编译过程中改变模型的语义,并引入隐藏的后门?研究涵盖对抗性和自然两种场景。在对抗性场景中,作者构建了良性模型,其中触发器在编译前无效,但在编译后变为有效的后门。在六个模型、三个商业编译器和两个硬件平台上进行的测试表明,该攻击在触发输入上实现了100%的成功率,同时保持了正常的准确性,并且未被最先进的检测器检测到。该攻击可推广到不同的编译器、硬件和浮点设置。在自然场景中,作者分析了HuggingFace上排名前100的模型(包括一个下载量超过2.2亿的模型),并在31个模型中发现了自然触发器。这表明即使没有对抗性操纵,编译器也可能引入风险。研究结果揭示了一个被忽视的威胁:未经修改的DL编译器可以悄无声息地改变模型语义。据作者所知,这是第一项揭示DL编译器设计中固有安全风险的工作,为安全和可信赖的机器学习开辟了一个新的方向。

🔬 方法详解

问题定义:论文旨在解决深度学习编译器在编译过程中可能引入后门,从而改变模型语义的问题。现有方法主要关注模型本身的安全性,而忽略了编译器这一环节可能存在的安全风险。编译器作为深度学习系统的核心基础设施,其安全性至关重要。现有的编译器设计缺乏对安全性的充分考虑,使得攻击者可以通过修改或利用编译器漏洞来植入后门,从而在不修改模型代码的情况下,控制模型的行为。

核心思路:论文的核心思路是利用编译器在优化和转换模型时可能引入的不确定性,构造特定的模型,使得这些模型在编译前是良性的,但在编译后会表现出后门行为。这种后门行为可以通过特定的触发器来激活,从而在特定输入下改变模型的输出。这种方法的核心在于利用了编译器在不同硬件平台和不同优化策略下的不一致性,使得攻击具有一定的通用性。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 构造对抗性模型:设计特定的模型结构和权重,使得模型在编译前对触发器不敏感。2) 使用不同的深度学习编译器对模型进行编译:利用不同的编译器和硬件平台,观察编译后的模型行为。3) 分析编译后的模型:检测模型是否对触发器产生响应,从而判断是否成功植入了后门。4) 在自然模型中寻找自然触发器:分析HuggingFace上的预训练模型,寻找可能被编译器利用的自然触发器。

关键创新:论文最重要的技术创新点在于揭示了深度学习编译器可能引入后门的安全风险,并提出了一种利用编译器不一致性来植入后门的方法。与传统的后门攻击方法不同,该方法不需要修改模型代码,而是通过修改编译器或利用编译器漏洞来实现。这种攻击方式更加隐蔽,难以被检测。

关键设计:在对抗性模型构造方面,论文设计了一种特殊的模型结构,使得模型在编译前对触发器不敏感,但在编译后会因为编译器的优化而变得敏感。在触发器设计方面,论文选择了一些常见的图像处理操作作为触发器,例如在图像的特定位置添加一个小的色块。在实验方面,论文选择了多个商业编译器和硬件平台,以验证攻击的通用性。

🖼️ 关键图片

img_0

📊 实验亮点

该研究在六个模型、三个商业编译器和两个硬件平台上进行了测试,结果表明,该攻击在触发输入上实现了100%的成功率,同时保持了正常的准确性,并且未被最先进的检测器检测到。此外,该研究还在HuggingFace上排名前100的模型中发现了31个包含自然触发器的模型,表明编译器可能在没有对抗性操纵的情况下引入风险。

🎯 应用场景

该研究成果对深度学习系统的安全性和可信性具有重要意义。它可以应用于评估和加固深度学习编译器,提高其安全性,防止恶意攻击者利用编译器漏洞植入后门。此外,该研究还可以用于开发新的后门检测方法,以检测和防御基于编译器的后门攻击。未来的研究可以探索更复杂的编译器后门攻击方法,以及更有效的防御策略。

📄 摘要(原文)

Deep learning (DL) compilers are core infrastructure in modern DL systems, offering flexibility and scalability beyond vendor-specific libraries. This work uncovers a fundamental vulnerability in their design: can an official, unmodified compiler alter a model's semantics during compilation and introduce hidden backdoors? We study both adversarial and natural settings. In the adversarial case, we craft benign models where triggers have no effect pre-compilation but become effective backdoors after compilation. Tested on six models, three commercial compilers, and two hardware platforms, our attack yields 100% success on triggered inputs while preserving normal accuracy and remaining undetected by state-of-the-art detectors. The attack generalizes across compilers, hardware, and floating-point settings. In the natural setting, we analyze the top 100 HuggingFace models (including one with 220M+ downloads) and find natural triggers in 31 models. This shows that compilers can introduce risks even without adversarial manipulation. Our results reveal an overlooked threat: unmodified DL compilers can silently alter model semantics. To our knowledge, this is the first work to expose inherent security risks in DL compiler design, opening a new direction for secure and trustworthy ML.