LibVulnWatch: A Deep Assessment Agent System and Leaderboard for Uncovering Hidden Vulnerabilities in Open-Source AI Libraries

📄 arXiv: 2505.08842v2 📥 PDF

作者: Zekun Wu, Seonglae Cho, Umar Mohammed, Cristian Munoz, Kleyton Costa, Xin Guan, Theo King, Ze Wang, Emre Kazim, Adriano Koshiyama

分类: cs.CR, cs.CL

发布日期: 2025-05-13 (更新: 2025-06-30)

备注: ACL 2025 Student Research Workshop and ICML 2025 TAIG Workshop


💡 一句话要点

LibVulnWatch:利用Agent深度评估开源AI库的潜在安全风险

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开源AI库 安全评估 大型语言模型 Agent工作流 软件供应链安全

📋 核心要点

  1. 开源AI库存在严重的安全风险,但缺乏有效的评估手段,难以保障AI系统的安全性。
  2. LibVulnWatch利用LLM和Agent工作流,自动化地提取、验证和量化开源AI库的风险。
  3. 实验表明,该方法能有效发现现有方法未能识别的多种安全风险,并生成可复现的评估报告。

📝 摘要(中文)

开源AI库是现代AI系统的基石,但它们也带来了显著的安全、许可、维护、供应链完整性和法规遵从性风险,这些风险尚未得到充分评估。我们介绍了LibVulnWatch,该系统利用大型语言模型和Agent工作流的最新进展,对这些库进行深入的、基于证据的评估。该框架构建在基于图的专用Agent编排之上,利用来自存储库、文档和漏洞数据库的信息提取、验证和量化风险。LibVulnWatch生成与治理对齐的可复现评分,涵盖五个关键领域,并将结果发布到公共排行榜,以进行持续的生态系统监控。我们的方法应用于20个广泛使用的库,包括ML框架、LLM推理引擎和Agent编排工具,涵盖高达88%的OpenSSF Scorecard检查,同时发现每个库多达19个额外风险,例如关键的RCE漏洞、缺失的SBOM和法规差距。通过将先进的语言技术与软件风险评估的实际需求相结合,这项工作展示了一种可扩展、透明的机制,用于持续的供应链评估和知情的库选择。

🔬 方法详解

问题定义:开源AI库是现代AI系统的基础,但其安全性风险,包括远程代码执行漏洞(RCE)、供应链攻击等,往往被忽视。现有的评估方法要么覆盖面不足,要么缺乏深度,难以有效识别潜在的风险。因此,如何全面、深入地评估开源AI库的安全性成为了一个亟待解决的问题。

核心思路:LibVulnWatch的核心思路是利用大型语言模型(LLM)和Agent工作流,模拟安全专家的分析过程,自动化地从多个来源(如代码仓库、文档、漏洞数据库)提取信息,并进行验证和风险量化。通过Agent之间的协作,实现对开源AI库的深度评估。

技术框架:LibVulnWatch采用基于图的Agent编排框架。该框架包含多个专门的Agent,每个Agent负责特定的任务,例如代码分析、文档解析、漏洞搜索等。这些Agent通过图结构连接,形成一个协作网络。整个流程包括:1) 数据收集:从多个来源收集关于开源AI库的信息;2) 信息提取:利用LLM从收集到的数据中提取关键信息;3) 风险验证:验证提取的信息的准确性和可靠性;4) 风险量化:根据验证后的信息,对开源AI库的风险进行量化评估;5) 结果展示:将评估结果以排行榜的形式公开展示。

关键创新:LibVulnWatch的关键创新在于将大型语言模型和Agent工作流应用于开源AI库的安全性评估。与传统的静态分析工具相比,LibVulnWatch能够更好地理解代码的语义,从而发现更深层次的漏洞。此外,LibVulnWatch还能够自动化地从多个来源收集信息,从而提高评估的效率和覆盖面。

关键设计:LibVulnWatch的关键设计包括:1) Agent的划分和职责分配:根据不同的任务,设计了多个专门的Agent,并明确了每个Agent的职责;2) Agent之间的协作机制:通过图结构连接Agent,并设计了Agent之间的通信协议,以实现Agent之间的有效协作;3) 风险量化方法:设计了一套风险量化指标,用于评估开源AI库的安全性风险。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LibVulnWatch应用于20个广泛使用的库,包括ML框架、LLM推理引擎和Agent编排工具,覆盖高达88%的OpenSSF Scorecard检查,同时发现每个库多达19个额外风险,例如关键的RCE漏洞、缺失的SBOM和法规差距。这些结果表明,LibVulnWatch能够有效地发现现有方法未能识别的多种安全风险。

🎯 应用场景

LibVulnWatch可应用于软件供应链安全管理、开源软件风险评估、AI系统安全保障等领域。它可以帮助开发者和安全专家更好地了解开源AI库的潜在风险,从而做出更明智的决策,提高AI系统的安全性。未来,该系统可以扩展到其他类型的开源软件,为整个软件生态系统的安全提供保障。

📄 摘要(原文)

Open-source AI libraries are foundational to modern AI systems, yet they present significant, underexamined risks spanning security, licensing, maintenance, supply chain integrity, and regulatory compliance. We introduce LibVulnWatch, a system that leverages recent advances in large language models and agentic workflows to perform deep, evidence-based evaluations of these libraries. Built on a graph-based orchestration of specialized agents, the framework extracts, verifies, and quantifies risk using information from repositories, documentation, and vulnerability databases. LibVulnWatch produces reproducible, governance-aligned scores across five critical domains, publishing results to a public leaderboard for ongoing ecosystem monitoring. Applied to 20 widely used libraries, including ML frameworks, LLM inference engines, and agent orchestration tools, our approach covers up to 88% of OpenSSF Scorecard checks while surfacing up to 19 additional risks per library, such as critical RCE vulnerabilities, missing SBOMs, and regulatory gaps. By integrating advanced language technologies with the practical demands of software risk assessment, this work demonstrates a scalable, transparent mechanism for continuous supply chain evaluation and informed library selection.