Trident: Improving Malware Detection with LLMs and Behavioral Features

📄 arXiv: 2605.00297v1 📥 PDF

作者: Rebecca Saul, Jingzhi Jiang, Elliott Chia, David Wagner

分类: cs.CR, cs.LG

发布日期: 2026-04-30


💡 一句话要点

Trident:利用LLM和行为特征提升恶意软件检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 恶意软件检测 大型语言模型 行为分析 静态特征 概念漂移

📋 核心要点

  1. 现有PE恶意软件检测方法主要依赖静态特征,难以有效利用半结构化的沙箱行为报告。
  2. Trident利用LLM从行为报告中生成恶意软件检测规则,结合静态特征提升检测效果。
  3. 实验表明,Trident在概念漂移下表现稳健,无需重新训练即可优于传统方法。

📝 摘要(中文)

传统上,用于PE恶意软件检测的机器学习方法依赖于静态特征,如字节直方图、字符串信息和PE头内容。将动态分析特征纳入的障碍之一是沙箱行为报告的半结构化性质。我们表明,使用最新一代具有推理能力的大型语言模型,可以有效地处理这些行为报告,并将其用作恶意软件检测管道的一部分。具体来说,我们利用LLM基于少量标记恶意软件的训练集生成基于行为的恶意软件检测规则。我们发现,这些源自行为特征的检测规则比标准静态特征方法更能抵抗概念漂移,同时保持实际的误报率。最后,我们介绍Trident,一个系统,它通过多数投票结合了静态特征上的经典决策树模型、我们基于行为的检测规则以及对沙箱报告的直接LLM分析。Trident优于使用静态特征的标准方法,优于单独的基于行为的规则,并且与主动学习方法一样能够抵抗概念漂移,而无需重新训练。

🔬 方法详解

问题定义:论文旨在解决传统恶意软件检测方法难以有效利用动态行为特征的问题。现有方法主要依赖静态特征,如字节码、字符串等,对恶意软件的变种和混淆具有脆弱性。沙箱行为报告包含丰富的动态信息,但其半结构化特性使得难以直接应用传统机器学习方法。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大理解和推理能力,将半结构化的沙箱行为报告转化为可用的恶意软件检测规则。通过LLM,可以从少量标记数据中学习恶意行为模式,并生成相应的检测规则。

技术框架:Trident系统包含三个主要模块:1) 静态特征分析模块:使用传统的决策树模型对静态特征进行分析。2) 基于LLM的行为规则生成模块:利用LLM从沙箱行为报告中提取恶意行为模式,并生成检测规则。3) 直接LLM分析模块:直接使用LLM对沙箱报告进行分析,判断是否为恶意软件。最终,Trident通过多数投票的方式综合三个模块的判断结果。

关键创新:Trident的关键创新在于利用LLM自动生成基于行为的恶意软件检测规则。与传统的手工编写规则相比,LLM可以更高效地学习复杂的恶意行为模式,并生成更具鲁棒性的检测规则。此外,Trident结合了静态特征分析和动态行为分析,提高了检测的准确性和泛化能力。

关键设计:LLM的选择和训练是Trident的关键设计之一。论文中使用的LLM需要具备强大的文本理解和推理能力,能够从半结构化的沙箱报告中提取关键信息。训练数据包括少量标记的恶意软件样本和相应的沙箱报告。LLM通过学习这些样本,生成能够识别恶意行为的检测规则。具体的参数设置、损失函数和网络结构等技术细节在论文中可能没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Trident在实验中表现出优于传统静态特征方法的检测性能,并且在概念漂移下具有更强的鲁棒性。与单独使用基于行为的规则相比,Trident的综合性能更佳。此外,Trident在抵抗概念漂移方面与主动学习方法相当,但无需重新训练,降低了维护成本。具体的性能数据和提升幅度在论文中应该有详细的量化结果。

🎯 应用场景

Trident可应用于企业安全、终端安全等领域,提升恶意软件的检测能力和防御水平。通过自动生成基于行为的检测规则,可以有效应对新型恶意软件和变种,降低人工分析的成本。该研究为利用LLM进行安全分析提供了一种新的思路,未来可扩展到其他安全领域,如漏洞挖掘、入侵检测等。

📄 摘要(原文)

Traditionally, machine learning methods for PE malware detection have relied on static features like byte histograms, string information, and PE header contents. One barrier to incorporating dynamic analysis features has been the semi-structured nature of sandbox behavior reports. We show that, using the latest generation of large language models with reasoning, it is possible to efficiently process these behavior reports and utilize them as part of a malware detection pipeline. Specifically, we leverage LLMs to generate behavior-based malware detection rules based on a small training set of labeled malware. We find that these detection rules, derived from behavioral features, are much more robust to concept drift than standard static-feature methods, while maintaining practical false positive rates. Finally, we introduce Trident, a system which combines a classic decision tree model over static features, our behavior-based detection rules, and direct LLM analysis of sandbox reports through majority voting. Trident outperforms standard methods using static features, outperforms behavior-based rules alone, and is as resilient to concept drift as active learning methods without requiring retraining.