Malware Classification from Memory Dumps Using Machine Learning, Transformers, and Large Language Models

作者: Areej Dweib, Montaser Tanina, Shehab Alawi, Mohammad Dyab, Huthaifa I. Ashqar

分类: cs.LG, cs.CL, cs.CR

发布日期: 2025-03-04

💡 一句话要点

利用机器学习、Transformer和LLM对内存转储进行恶意软件分类

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 恶意软件分类 机器学习 深度学习 特征选择 内存转储 XGBoost 随机森林 网络安全

📋 核心要点

现有恶意软件分类方法在处理高维数据和复杂特征时面临挑战，计算成本高昂且准确率有待提升。
本研究探索了多种机器学习、深度学习和LLM模型，并结合特征选择策略，旨在提升恶意软件分类的准确性和效率。
实验结果表明，XGBoost和随机森林等传统机器学习模型在特定特征集上表现优异，优于深度学习和少样本学习方法。

📝 摘要（中文）

本研究调查了使用不同特征集和数据配置进行恶意软件分类任务时，各种分类模型的性能。评估了六种模型——逻辑回归、K近邻(KNN)、支持向量机(SVM)、决策树、随机森林(RF)和极端梯度提升(XGB)——以及两种深度学习模型，即循环神经网络(RNN)和Transformer，以及Gemini的零样本和少样本学习方法。测试了四个特征集，包括所有特征、文献综述特征、RF的前45个特征以及使用前45个特征进行降采样。XGB在使用前45个特征时达到了87.42%的最高准确率，优于所有其他模型。RF紧随其后，在同一特征集上达到了87.23%的准确率。相比之下，深度学习模型的表现不佳，RNN的准确率为66.71%，Transformer的准确率为71.59%。降采样降低了所有模型的性能，XGB降至81.31%。Gemini的零样本和少样本学习方法的性能最低，准确率分别为40.65%和48.65%。结果强调了特征选择在提高模型性能和降低计算复杂性方面的重要性。传统的机器学习模型(如XGB和RF)表现出卓越的性能，而深度学习和少样本方法难以达到它们的准确率。本研究强调了传统机器学习模型对于结构化数据集的有效性，并为未来研究混合方法和更大规模数据集奠定了基础。

🔬 方法详解

问题定义：恶意软件分类旨在识别并区分不同类型的恶意软件，现有方法在高维特征和复杂样本下，分类精度和效率面临挑战，尤其是在计算资源受限的情况下。现有方法难以有效利用内存转储中的信息，且特征工程复杂，需要大量人工干预。

核心思路：本研究的核心思路是探索不同机器学习模型在恶意软件分类任务中的性能，并结合特征选择策略，以降低计算复杂度并提高分类准确率。通过比较传统机器学习模型、深度学习模型以及大型语言模型在不同特征集上的表现，找到最适合该任务的模型和特征组合。

技术框架：该研究的技术框架主要包括数据预处理、特征提取与选择、模型训练与评估三个阶段。首先，对内存转储数据进行预处理，提取相关特征。然后，采用不同的特征选择方法，包括基于文献综述的特征选择和基于随机森林的特征重要性排序。接着，使用选定的特征集训练各种机器学习模型，包括逻辑回归、KNN、SVM、决策树、随机森林、XGBoost、RNN和Transformer。最后，评估各个模型在不同特征集上的性能，并进行比较分析。

关键创新：本研究的关键创新在于系统性地比较了多种机器学习模型（包括传统模型、深度学习模型和大型语言模型）在恶意软件分类任务中的性能，并结合特征选择策略，找到了在特定数据集上表现最佳的模型和特征组合。此外，研究还评估了零样本和少样本学习方法在恶意软件分类中的潜力。

关键设计：研究中关键的设计包括：1) 选择了多种具有代表性的机器学习模型，覆盖了传统模型、深度学习模型和大型语言模型；2) 采用了多种特征选择方法，包括基于领域知识的特征选择和基于模型重要性的特征选择；3) 使用了准确率作为主要的评估指标，并进行了充分的实验比较。

📊 实验亮点

实验结果表明，XGBoost模型在使用前45个特征时达到了87.42%的最高准确率，优于其他所有模型。随机森林模型紧随其后，在同一特征集上达到了87.23%的准确率。相比之下，深度学习模型和Gemini的零样本/少样本学习方法的性能较低，表明传统机器学习模型在结构化数据集上更具优势。

🎯 应用场景

该研究成果可应用于网络安全领域，用于提升恶意软件检测和分类的准确性和效率。通过选择合适的模型和特征集，可以更快地识别新型恶意软件，从而减少安全风险。此外，该研究也为未来探索混合模型和更大规模数据集提供了基础。

📄 摘要（原文）

This study investigates the performance of various classification models for a malware classification task using different feature sets and data configurations. Six models-Logistic Regression, K-Nearest Neighbors (KNN), Support Vector Machines (SVM), Decision Trees, Random Forest (RF), and Extreme Gradient Boosting (XGB)-were evaluated alongside two deep learning models, Recurrent Neural Networks (RNN) and Transformers, as well as the Gemini zero-shot and few-shot learning methods. Four feature sets were tested including All Features, Literature Review Features, the Top 45 Features from RF, and Down-Sampled with Top 45 Features. XGB achieved the highest accuracy of 87.42% using the Top 45 Features, outperforming all other models. RF followed closely with 87.23% accuracy on the same feature set. In contrast, deep learning models underperformed, with RNN achieving 66.71% accuracy and Transformers reaching 71.59%. Down-sampling reduced performance across all models, with XGB dropping to 81.31%. Gemini zero-shot and few-shot learning approaches showed the lowest performance, with accuracies of 40.65% and 48.65%, respectively. The results highlight the importance of feature selection in improving model performance while reducing computational complexity. Traditional models like XGB and RF demonstrated superior performance, while deep learning and few-shot methods struggled to match their accuracy. This study underscores the effectiveness of traditional machine learning models for structured datasets and provides a foundation for future research into hybrid approaches and larger datasets.

Malware Classification from Memory Dumps Using Machine Learning, Transformers, and Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理