Threat Modelling using Domain-Adapted Language Models: Empirical Evaluation and Insights
作者: Saba Pourhanifeh, AbdulAziz AbdulGhaffar, Ashraf Matrawy
分类: cs.CR, cs.AI
发布日期: 2026-05-11
💡 一句话要点
系统性评估领域适配语言模型在5G结构化威胁建模中的效能与局限
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 威胁建模 大语言模型 5G安全 领域适配 STRIDE方法 提示词工程 网络安全自动化
📋 核心要点
- 现有研究多依赖通用大模型且提示词设置有限,缺乏对领域适配模型在结构化威胁建模任务中的系统性评估。
- 论文通过对比不同规模的通用与领域适配模型,深入分析了模型规模、解码策略及提示词工程对STRIDE威胁分类的影响。
- 实验发现领域适配并未带来一致性性能提升,且当前模型在结构化推理与安全概念落地方面存在显著局限,难以满足可靠性要求。
📝 摘要(中文)
大型语言模型(LLMs)在漏洞检测等网络安全领域应用广泛,但在结构化威胁建模方面的研究仍局限于通用模型及有限的提示词设置。本研究系统性地评估了不同规模的领域适配语言模型与通用模型在5G安全场景下的表现。通过对比8种语言模型共52种配置,研究分析了领域适配、模型规模、解码策略(贪婪搜索与随机采样)及提示词工程对STRIDE威胁分类的影响。结果表明,领域适配模型并未始终优于通用模型,解码策略对输出有效性影响显著。尽管大模型性能通常较优,但其提升不足以支撑可靠的威胁建模。研究揭示了当前模型在结构化推理任务中的根本局限,并强调了增强任务特定推理能力与安全概念基础的重要性。
🔬 方法详解
问题定义:论文旨在解决大语言模型在网络安全威胁建模(特别是5G场景下的STRIDE方法)中表现不稳定的问题。现有方法缺乏对模型规模、领域知识注入及解码策略如何影响结构化输出的深入理解。
核心思路:通过实证研究方法,对比分析通用模型与针对电信及网络安全领域微调后的模型(包括LLMs和SLMs),探讨“领域适配”是否能有效提升安全任务的推理准确性与输出有效性。
技术框架:研究构建了一个包含52种配置的实验框架,涵盖了8种不同架构的模型。流程包括:针对5G安全场景定义STRIDE分类任务,通过不同的提示词工程(Prompting)引导模型生成威胁描述,并对比贪婪搜索(Greedy)与随机采样(Stochastic)两种解码策略下的输出质量。
关键创新:本研究首次系统性地量化了领域适配对结构化威胁建模的实际贡献,揭示了模型规模增长与任务性能提升之间的非线性关系,并指出了当前模型在处理复杂安全逻辑时的“幻觉”与结构化输出失效问题。
关键设计:实验设计中严格控制了变量,包括模型参数量级、领域预训练数据的覆盖范围、以及解码过程中的温度参数设置。通过对无效输出的分类统计,提出了针对STRIDE建模的定制化提示词优化建议。
🖼️ 关键图片
📊 实验亮点
实验覆盖8种模型与52种配置,核心发现包括:领域适配模型并未在所有指标上超越通用模型,证明了单纯依赖领域数据微调的局限性;解码策略对输出有效性具有决定性影响;模型规模的增加虽能提升性能,但对于高可靠性要求的威胁建模任务而言,目前的提升幅度仍不足以实现完全自动化,强调了引入符号化推理与安全概念强约束的必要性。
🎯 应用场景
该研究直接服务于电信运营商与网络安全分析师,旨在提升5G网络架构的威胁评估效率。其研究成果可指导安全团队在自动化威胁建模工具中选择合适的模型架构与解码策略,并为未来开发具备强逻辑推理能力、深度集成安全领域知识的专用安全大模型提供理论依据与实践指南。
📄 摘要(原文)
Large Language Models(LLMs) are increasingly explored for cybersecurity applications such as vulnerability detection. In the domain of threat modelling, prior work has primarily evaluated a number of general-purpose Large Language Models under limited prompting settings. In this study, we extend the research area of structured threat modelling by systematically evaluating domain-adapted language models of different sizes to their general counterparts. We use both LLMs and Small Language Models(SLMs) that were domain adapted to telecommunications and cybersecuirty. For the structured threat modelling, we selected the widely used STRIDE approach and the application area is 5G security. We present a comprehensive empirical evaluation using 52 different configurations (on 8 different language models) to analyze the impact of 1) domain adaptation, 2) model scale, 3) decoding strategies (greedy vs. stochastic sampling), and 4) prompting technique on STRIDE threat classification. Our results show that domain-adapted models do not consistently outperform their general-purpose counterparts, and decoding strategies significantly affect model behavior and output validity. They also show that while larger models generally achieve higher performance, these gains are neither consistent nor sufficient for reliable threat modelling. These findings highlight fundamental limitations of current LLMs for structured threat modelling tasks and suggest that improvements require more than additional training data or model scaling, motivating the need for incorporating more task-specific reasoning and stronger grounding in security concepts. We present insights on invalid outputs encountered and present suggestions for prompting tailored specifically for STRIDE threat modelling.