Securing the AI Supply Chain: What Can We Learn From Developer-Reported Security Issues and Solutions of AI Projects?

📄 arXiv: 2512.23385v2 📥 PDF

作者: The Anh Nguyen, Triet Huynh Minh Le, M. Ali Babar

分类: cs.SE, cs.AI, cs.CR, cs.HC

发布日期: 2025-12-29 (更新: 2026-01-09)

备注: Accepted at the 48th IEEE/ACM International Conference on Software Engineering (ICSE 2026) - Research Track


💡 一句话要点

分析AI项目开发者报告的安全问题与解决方案,保障AI供应链安全。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI供应链安全 安全问题识别 自然语言处理 DistilBERT 主题分析

📋 核心要点

  1. AI供应链面临传统软件安全问题外,还存在AI特有的安全威胁,但对其具体问题和解决方案缺乏了解。
  2. 通过分析Hugging Face和GitHub上的开发者讨论,构建安全问题数据集,并进行主题分析,识别安全问题和解决方案。
  3. 揭示了32种安全问题和24种解决方案,发现模型和数据相关的安全挑战缺乏具体解决方案,为开发者提供指导。

📝 摘要(中文)

人工智能模型和应用的快速增长导致安全形势日益复杂。AI项目开发者不仅要应对传统的软件供应链问题,还要应对新型的、AI特有的安全威胁。然而,对于常见的安全问题以及实际的解决方案知之甚少。为了弥补这一差距,本文基于Hugging Face和GitHub的讨论,对开发者报告的问题和解决方案进行了实证研究。为了识别与安全相关的讨论,开发了一个管道,将关键词匹配与优化的微调distilBERT分类器相结合,该分类器在各种深度学习和大型语言模型的广泛比较中表现最佳。该管道生成了一个包含312,868个安全讨论的数据集,提供了关于AI应用和项目的安全报告实践的见解。对从数据集中抽样的753个帖子进行了主题分析,揭示了一个细粒度的分类法,包含四个主题的32个安全问题和24个解决方案:(1)系统和软件,(2)外部工具和生态系统,(3)模型,以及(4)数据。研究表明,许多安全问题源于AI组件的复杂依赖关系和黑盒特性。值得注意的是,与模型和数据相关的挑战往往缺乏具体的解决方案。这些见解可以为开发者和研究人员提供循证指导,以应对AI供应链中的实际安全威胁。

🔬 方法详解

问题定义:论文旨在解决AI供应链中安全问题识别和分类的难题。现有方法难以有效识别开发者报告的安全问题,并且缺乏对这些问题的细粒度分类和解决方案的总结,导致开发者难以应对AI供应链中的安全威胁。

核心思路:论文的核心思路是通过挖掘开发者在Hugging Face和GitHub等平台上的讨论,构建一个包含大量安全相关信息的语料库,然后利用自然语言处理技术对这些信息进行分析和分类,从而识别常见的安全问题和解决方案。这种方法能够从实际开发者的角度出发,更全面地了解AI供应链中的安全风险。

技术框架:论文的技术框架主要包括以下几个阶段:1) 数据收集:从Hugging Face和GitHub等平台收集开发者讨论数据。2) 安全问题识别:开发一个结合关键词匹配和微调distilBERT分类器的管道,用于识别与安全相关的讨论。3) 主题分析:对识别出的安全相关讨论进行主题分析,提取安全问题和解决方案。4) 分类体系构建:构建一个细粒度的安全问题和解决方案分类体系。

关键创新:论文的关键创新在于:1) 提出了一种结合关键词匹配和微调distilBERT分类器的安全问题识别管道,能够有效识别开发者报告的安全问题。2) 构建了一个细粒度的AI供应链安全问题和解决方案分类体系,为开发者提供了更具体的指导。

关键设计:在安全问题识别管道中,论文采用了distilBERT模型进行微调,并结合关键词匹配来提高识别准确率。在主题分析中,论文采用了人工编码的方式,对安全问题和解决方案进行分类和归纳。论文还详细描述了安全问题和解决方案的分类体系,包括四个主题:系统和软件、外部工具和生态系统、模型和数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了一个包含312,868个安全讨论的数据集,并从中抽样分析了753个帖子,揭示了32种安全问题和24种解决方案。研究发现,模型和数据相关的安全挑战往往缺乏具体解决方案,这为未来的研究方向提供了重要线索。DistilBERT分类器在安全问题识别上表现出色,为后续研究提供了可靠的工具。

🎯 应用场景

该研究成果可应用于AI安全风险评估、AI安全工具开发、AI安全培训等方面。通过了解AI供应链中常见的安全问题和解决方案,开发者可以更好地保护AI系统免受攻击,提高AI应用的安全性。研究结果还可以为安全研究人员提供参考,促进AI安全领域的发展。

📄 摘要(原文)

The rapid growth of Artificial Intelligence (AI) models and applications has led to an increasingly complex security landscape. Developers of AI projects must contend not only with traditional software supply chain issues but also with novel, AI-specific security threats. However, little is known about what security issues are commonly encountered and how they are resolved in practice. This gap hinders the development of effective security measures for each component of the AI supply chain. We bridge this gap by conducting an empirical investigation of developer-reported issues and solutions, based on discussions from Hugging Face and GitHub. To identify security-related discussions, we develop a pipeline that combines keyword matching with an optimal fine-tuned distilBERT classifier, which achieved the best performance in our extensive comparison of various deep learning and large language models. This pipeline produces a dataset of 312,868 security discussions, providing insights into the security reporting practices of AI applications and projects. We conduct a thematic analysis of 753 posts sampled from our dataset and uncover a fine-grained taxonomy of 32 security issues and 24 solutions across four themes: (1) System and Software, (2) External Tools and Ecosystem, (3) Model, and (4) Data. We reveal that many security issues arise from the complex dependencies and black-box nature of AI components. Notably, challenges related to Models and Data often lack concrete solutions. Our insights can offer evidence-based guidance for developers and researchers to address real-world security threats across the AI supply chain.