LLM Embedding-based Attribution (LEA): Quantifying Source Contributions to Generative Model's Response for Vulnerability Analysis
作者: Reza Fayyazi, Michael Zuzak, Shanchieh Jay Yang
分类: cs.CR, cs.AI
发布日期: 2025-06-12 (更新: 2025-09-03)
💡 一句话要点
提出LEA以量化生成模型响应中的源贡献问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 网络安全 漏洞分析 生成模型 信息检索 可信AI 安全审计
📋 核心要点
- 现有方法在处理网络安全中的新兴漏洞时面临挑战,尤其是LLMs的训练截止日期限制了其对最新信息的响应能力。
- 论文提出LLM嵌入基础归因(LEA),通过量化内部知识与检索内容在生成响应中的贡献,帮助分析生成内容的可靠性。
- 实验结果表明,LEA在不同检索场景下的准确率超过95%,有效提升了对生成内容的理解和分析能力。
📝 摘要(中文)
大型语言模型(LLMs)在网络安全威胁分析中的应用日益增加,但在安全敏感环境中的部署引发了信任和安全问题。随着2025年披露的漏洞超过21,000个,手动分析已不可行,因此可扩展且可验证的AI支持变得至关重要。本文提出LLM嵌入基础归因(LEA),用于分析生成响应中的内部知识与检索内容的相对贡献。通过对2016至2025年间500个关键漏洞的评估,LEA在有效、通用和错误的检索设置下,展示了超过95%的准确率,能够清晰区分不同的检索场景。最后,本文提醒网络安全社区对LLMs和RAG的盲目信任,强调LEA在提升AI透明性和可信性方面的作用。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在网络安全漏洞分析中对检索信息与内部知识贡献的不确定性,现有方法未能有效区分这两者的影响。
核心思路:LEA通过量化生成响应中内部知识与检索内容的相对贡献,提供了一种新的分析工具,以帮助安全分析师理解生成内容的来源和可靠性。
技术框架:LEA的整体架构包括数据收集、模型训练、响应生成和贡献量化四个主要模块。首先,收集相关漏洞数据,然后训练LLMs,接着生成响应,最后量化各部分的贡献。
关键创新:LEA的主要创新在于其能够清晰区分非检索、通用检索和有效检索场景的响应贡献,提供了一种新的评估标准,与现有方法相比,显著提高了分析的透明度和准确性。
关键设计:在设计上,LEA使用了特定的损失函数来优化模型的输出,并通过对比实验验证了不同检索设置下的响应质量,确保了模型在实际应用中的有效性。
📊 实验亮点
实验结果显示,LEA在处理500个关键漏洞时,能够以超过95%的准确率区分不同的检索场景,显著优于传统方法。这一成果不仅验证了LEA的有效性,还强调了对检索信息的准确理解在网络安全分析中的重要性。
🎯 应用场景
LEA的研究成果可广泛应用于网络安全领域,尤其是在漏洞分析和安全审计中。通过提供对生成内容来源的透明分析,LEA能够帮助安全分析师做出更明智的决策,降低安全风险,并提高AI在安全敏感环境中的可信度。未来,LEA可能会推动更多基于AI的安全工具的开发与应用。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly used for cybersecurity threat analysis, but their deployment in security-sensitive environments raises trust and safety concerns. With over 21,000 vulnerabilities disclosed in 2025, manual analysis is infeasible, making scalable and verifiable AI support critical. When querying LLMs, dealing with emerging vulnerabilities is challenging as they have a training cut-off date. While Retrieval-Augmented Generation (RAG) can inject up-to-date context to alleviate the cut-off date limitation, it remains unclear how much LLMs rely on retrieved evidence versus the model's internal knowledge, and whether the retrieved information is meaningful or even correct. This uncertainty could mislead security analysts, mis-prioritize patches, and increase security risks. Therefore, this work proposes LLM Embedding-based Attribution (LEA) to analyze the generated responses for vulnerability exploitation analysis. More specifically, LEA quantifies the relative contribution of internal knowledge vs. retrieved content in the generated responses. We evaluate LEA on 500 critical vulnerabilities disclosed between 2016 and 2025, across three RAG settings -- valid, generic, and incorrect -- using three state-of-the-art LLMs. Our results demonstrate LEA's ability to detect clear distinctions between non-retrieval, generic-retrieval, and valid-retrieval scenarios with over 95% accuracy on larger models. Finally, we demonstrate the limitations posed by incorrect retrieval of vulnerability information and raise a cautionary note to the cybersecurity community regarding the blind reliance on LLMs and RAG for vulnerability analysis. LEA offers security analysts with a metric to audit RAG-enhanced workflows, improving the transparent and trustworthy deployment of AI in cybersecurity threat analysis.