Automated Malware Family Classification using Weighted Hierarchical Ensembles of Large Language Models

📄 arXiv: 2604.02490 📥 PDF

作者: Samita Bai, Hamed Jelodar, Tochukwu Emmanuel Nwankwo, Parisa Hamedi, Mohammad Meymani, Roozbeh Razavi-Far, Ali A. Ghorbani

分类: cs.CR, cs.AI

发布日期: 2026-04-06


💡 一句话要点

提出基于加权层级集成大语言模型的零标签恶意软件家族分类框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 恶意软件分类 大语言模型 零标签学习 集成学习 层级分类

📋 核心要点

  1. 现有恶意软件分类方法依赖标注数据和人工特征,难以应对开放世界中不断演变的威胁。
  2. 该论文提出一种零标签方法,通过集成多个大语言模型,利用其互补的推理能力进行恶意软件分类。
  3. 该方法使用经验F1分数加权模型输出,并采用层级结构,提升了分类的鲁棒性和准确性。

📝 摘要(中文)

恶意软件家族分类在自动化恶意软件分析中仍然是一项具有挑战性的任务,尤其是在充斥着混淆、加壳和快速演变威胁的真实环境中。现有的机器学习和深度学习方法通常依赖于带标签的数据集、手工设计的特征、监督训练或动态分析,这限制了它们在开放世界场景中的可扩展性和有效性。本文提出了一种基于预训练大语言模型(LLM)的加权层级集成的零标签恶意软件家族分类框架。该方法不依赖于特征级别的学习或模型重新训练,而是聚合来自多个具有互补推理能力的大语言模型的决策级预测。模型输出使用经验导出的宏F1分数进行加权,并按层级组织,首先解决粗粒度的恶意行为,然后再分配细粒度的恶意软件家族。这种结构增强了鲁棒性,降低了单个模型的稳定性,并与分析师风格的推理相一致。

🔬 方法详解

问题定义:恶意软件家族分类旨在识别恶意软件所属的特定家族,这对于安全分析和威胁情报至关重要。然而,传统的机器学习和深度学习方法依赖于大量标注数据,并且需要人工提取特征,这在面对新型恶意软件和对抗性攻击时显得脆弱。此外,动态分析虽然有效,但成本较高且容易被规避。因此,如何在缺乏标注数据的情况下,高效准确地进行恶意软件家族分类是一个亟待解决的问题。

核心思路:该论文的核心思路是利用预训练大语言模型(LLM)的强大推理能力,通过集成多个LLM的预测结果,实现零标签的恶意软件家族分类。这种方法避免了对标注数据的依赖,并且能够利用LLM的通用知识来识别恶意软件的行为模式。通过加权集成和层级分类,进一步提升了分类的鲁棒性和准确性。

技术框架:该框架主要包含以下几个阶段:1) 恶意软件样本输入;2) 多个预训练LLM对样本进行分析,并输出家族分类的预测结果;3) 使用经验导出的宏F1分数对LLM的输出进行加权;4) 构建层级分类结构,首先进行粗粒度的恶意行为分类,然后进行细粒度的恶意软件家族分类;5) 输出最终的恶意软件家族分类结果。

关键创新:该论文最重要的技术创新点在于提出了基于加权层级集成LLM的零标签恶意软件家族分类方法。与传统的基于特征学习或模型重训练的方法不同,该方法直接利用预训练LLM的知识,避免了对标注数据的依赖。此外,通过加权集成和层级分类,有效地提升了分类的鲁棒性和准确性。

关键设计:该框架的关键设计包括:1) 选择具有互补推理能力的多个LLM;2) 使用经验导出的宏F1分数作为权重,以平衡不同LLM的预测能力;3) 构建层级分类结构,以模拟安全分析师的推理过程;4) 针对不同的恶意软件家族,选择合适的LLM进行分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的方法在零标签恶意软件家族分类任务上取得了显著成果。通过集成多个LLM,并采用加权和层级分类策略,该方法能够有效地识别恶意软件家族,并且具有良好的鲁棒性和可扩展性。具体的性能数据和对比基线信息未知,但摘要强调了该方法在开放世界场景下的优势。

🎯 应用场景

该研究成果可应用于自动化恶意软件分析平台、威胁情报系统和安全运营中心等领域。通过零标签分类,能够快速识别新型恶意软件家族,降低人工分析成本,提升安全防御效率。未来,该方法有望扩展到其他安全领域,例如漏洞挖掘和入侵检测。

📄 摘要(原文)

Malware family classification remains a challenging task in automated malware analysis, particularly in real-world settings characterized by obfuscation, packing, and rapidly evolving threats. Existing machine learning and deep learning approaches typically depend on labeled datasets, handcrafted features, supervised training, or dynamic analysis, which limits their scalability and effectiveness in open-world scenarios.This paper presents a zero-label malware family classification framework based on a weighted hierarchical ensemble of pretrained large language models (LLMs). Rather than relying on feature-level learning or model retraining, the proposed approach aggregates decision-level predictions from multiple LLMs with complementary reasoning strengths. Model outputs are weighted using empirically derived macro-F1 scores and organized hierarchically, first resolving coarse-grained malicious behavior before assigning fine-grained malware families. This structure enhances robustness, reduces individual model instability, and aligns with analyst-style reasoning.