LLM-Generated Samples for Android Malware Detection
作者: Nik Rollinson, Nikolaos Polatidis
分类: cs.CR, cs.LG
发布日期: 2025-09-30
备注: 24 pages
💡 一句话要点
利用LLM生成样本增强Android恶意软件检测,提升稀疏数据集性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Android恶意软件检测 大型语言模型 数据增强 合成数据生成 GPT-4.1-mini
📋 核心要点
- Android恶意软件的演变给传统检测方法带来挑战,现有机器学习模型在有限数据集上表现受限。
- 利用大型语言模型生成合成恶意软件数据,以增强训练数据集,弥补数据稀疏性问题。
- 实验表明,合成数据可有效增强真实数据训练,但单独使用合成数据训练效果取决于恶意软件类型。
📝 摘要(中文)
Android恶意软件通过混淆和多态性不断演变,对基于签名的防御和在有限且不平衡数据集上训练的机器学习模型提出了挑战。合成数据已被提议作为解决数据稀缺问题的方法,但大型语言模型(LLM)在生成用于检测任务的有效恶意软件数据方面的作用仍未得到充分探索。本研究微调了GPT-4.1-mini,使用KronoDroid数据集为三个恶意软件家族:BankBot、Locker/SLocker和Airpush/StopSMS生成结构化记录。在通过提示工程和后处理解决生成不一致问题后,我们在三种设置下评估了多个分类器:仅使用真实数据训练、真实数据加合成数据训练以及仅使用合成数据训练。结果表明,仅使用真实数据训练可实现接近完美的检测,而使用合成数据增强可在保持高性能的同时仅略有降低。相比之下,仅使用合成数据训练会产生混合结果,其有效性因恶意软件家族和微调策略而异。这些发现表明,LLM生成的恶意软件可以增强稀疏数据集,而不会影响检测准确性,但作为独立的训练来源仍然不足。
🔬 方法详解
问题定义:该论文旨在解决Android恶意软件检测中,由于恶意软件样本数据稀缺和不平衡导致机器学习模型泛化能力不足的问题。现有方法依赖于有限的真实恶意软件样本,难以覆盖恶意软件变种,导致检测效果不佳。
核心思路:论文的核心思路是利用大型语言模型(LLM)生成合成的恶意软件样本数据,并将其与真实数据结合,以增强训练数据集,提高恶意软件检测模型的泛化能力和鲁棒性。通过微调LLM,使其能够生成特定恶意软件家族的结构化数据记录。
技术框架:整体框架包括以下几个主要阶段:1) 数据准备:使用KronoDroid数据集,包含BankBot、Locker/SLocker和Airpush/StopSMS三个恶意软件家族的数据。2) LLM微调:使用GPT-4.1-mini模型,针对每个恶意软件家族进行微调,使其能够生成相应的恶意软件样本数据。3) 数据生成:使用微调后的LLM生成合成的恶意软件样本数据。4) 数据后处理:对生成的合成数据进行清洗和校正,解决生成不一致的问题。5) 模型训练与评估:使用真实数据、真实数据加合成数据、以及仅使用合成数据三种方式训练分类器,并评估其在恶意软件检测任务上的性能。
关键创新:该论文的关键创新在于探索了利用LLM生成合成恶意软件样本数据来增强恶意软件检测模型训练的方法。与传统的数据增强方法相比,LLM能够生成更具多样性和真实性的合成数据,从而更好地模拟恶意软件的演变趋势。
关键设计:论文的关键设计包括:1) 使用GPT-4.1-mini作为LLM的基础模型,并针对特定恶意软件家族进行微调。2) 采用提示工程(Prompt Engineering)和后处理技术,解决LLM生成数据的不一致性问题。3) 评估了三种不同的训练策略:仅使用真实数据、真实数据加合成数据、以及仅使用合成数据,以分析合成数据对模型性能的影响。
📊 实验亮点
实验结果表明,仅使用真实数据训练的分类器能够实现接近完美的检测效果。使用合成数据增强真实数据训练,可以在保持高性能的同时仅略有降低检测精度。然而,仅使用合成数据训练的效果因恶意软件家族而异,表明LLM生成的合成数据可以作为真实数据的补充,但不能完全替代真实数据。
🎯 应用场景
该研究成果可应用于Android恶意软件检测领域,通过生成合成恶意软件样本,增强现有检测模型在数据稀缺场景下的性能。该方法有助于提高移动设备的安全防护能力,降低恶意软件感染风险,并为未来的恶意软件检测技术发展提供新的思路。
📄 摘要(原文)
Android malware continues to evolve through obfuscation and polymorphism, posing challenges for both signature-based defenses and machine learning models trained on limited and imbalanced datasets. Synthetic data has been proposed as a remedy for scarcity, yet the role of large language models (LLMs) in generating effective malware data for detection tasks remains underexplored. In this study, we fine-tune GPT-4.1-mini to produce structured records for three malware families: BankBot, Locker/SLocker, and Airpush/StopSMS, using the KronoDroid dataset. After addressing generation inconsistencies with prompt engineering and post-processing, we evaluate multiple classifiers under three settings: training with real data only, real-plus-synthetic data, and synthetic data alone. Results show that real-only training achieves near perfect detection, while augmentation with synthetic data preserves high performance with only minor degradations. In contrast, synthetic-only training produces mixed outcomes, with effectiveness varying across malware families and fine-tuning strategies. These findings suggest that LLM-generated malware can enhance scarce datasets without compromising detection accuracy, but remains insufficient as a standalone training source.