Semantic Preprocessing for LLM-based Malware Analysis

📄 arXiv: 2506.12113v4 📥 PDF

作者: Benjamin Marais, Tony Quertier, Grégoire Barrue

分类: cs.CR, cs.AI

发布日期: 2025-06-13 (更新: 2025-10-03)


💡 一句话要点

提出基于专家知识的预处理方法以提升恶意软件分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 恶意软件分析 专家知识 语义预处理 大型语言模型 可解释性 静态分析 行为分析 JSON报告

📋 核心要点

  1. 现有恶意软件分析方法多依赖于数据视角,缺乏专家知识的有效利用,导致分析结果的可解释性不足。
  2. 本文提出了一种新的预处理方法,通过生成JSON报告,整合静态和行为分析特征,增强恶意软件的语义表示。
  3. 通过使用该预处理方法训练大型语言模型,实验结果显示在复杂数据集上获得了0.94的加权平均F1分数,显著提升了分类性能。

📝 摘要(中文)

在恶意软件分析的背景下,许多方法依赖人工智能处理大量数据。然而,这些技术主要关注数据视角(如图像、序列),而忽视了专家视角。为了解决这一问题,本文提出了一种基于专家知识的预处理方法,以改善恶意软件的语义分析和结果可解释性。该方法生成针对可执行文件的JSON报告,汇集静态和行为分析的特征,并结合打包器签名检测、MITRE ATT&CK和恶意软件行为目录(MBC)知识。通过这种预处理方法训练大型语言模型进行恶意软件分类,我们在一个复杂的数据集上实现了0.94的加权平均F1分数,代表了市场现实。

🔬 方法详解

问题定义:本文旨在解决现有恶意软件分析方法中对专家知识的忽视,导致分析结果缺乏可解释性和准确性的问题。现有方法主要集中在数据视角,未能有效利用专家的经验和知识。

核心思路:论文提出了一种基于专家知识的预处理方法,旨在通过生成包含静态和行为分析特征的JSON报告,提升恶意软件的语义分析能力,使其更易于被分析人员理解。

技术框架:该方法的整体架构包括数据收集、特征提取、JSON报告生成和模型训练四个主要模块。首先,收集可执行文件数据,然后进行静态和行为分析,提取相关特征,最后生成JSON格式的报告,供后续模型训练使用。

关键创新:最重要的技术创新在于将专家知识系统化,通过JSON报告的形式将复杂的分析结果以语义化的方式呈现,显著提升了恶意软件分析的可解释性和准确性。这与现有方法的主要区别在于强调了专家视角的整合。

关键设计:在技术细节上,报告中包含了打包器签名检测、MITRE ATT&CK框架和恶意软件行为目录(MBC)知识,确保了特征的全面性和准确性。此外,模型训练过程中采用了加权平均F1分数作为评估指标,以优化模型性能。

📊 实验亮点

实验结果显示,使用该预处理方法训练的大型语言模型在复杂数据集上实现了0.94的加权平均F1分数,显著高于传统方法的性能。这一结果表明,结合专家知识的预处理方法在恶意软件分类中具有显著的优势。

🎯 应用场景

该研究的潜在应用领域包括网络安全、恶意软件检测和信息安全等。通过提供更具可解释性的分析结果,能够帮助安全专家更有效地识别和应对恶意软件威胁,提升整体安全防护能力。未来,该方法还可扩展至其他类型的恶意软件分析和安全领域的应用。

📄 摘要(原文)

In a context of malware analysis, numerous approaches rely on Artificial Intelligence to handle a large volume of data. However, these techniques focus on data view (images, sequences) and not on an expert's view. Noticing this issue, we propose a preprocessing that focuses on expert knowledge to improve malware semantic analysis and result interpretability. We propose a new preprocessing method which creates JSON reports for Portable Executable files. These reports gather features from both static and behavioral analysis, and incorporate packer signature detection, MITRE ATT\&CK and Malware Behavior Catalog (MBC) knowledge. The purpose of this preprocessing is to gather a semantic representation of binary files, understandable by malware analysts, and that can enhance AI models' explainability for malicious files analysis. Using this preprocessing to train a Large Language Model for Malware classification, we achieve a weighted-average F1-score of 0.94 on a complex dataset, representative of market reality.