VOLTRON: Detecting Unknown Malware Using Graph-Based Zero-Shot Learning

📄 arXiv: 2507.04275v1 📥 PDF

作者: M. Tahir Akdeniz, Zeynep Yeşilkaya, İ. Enes Köse, İ. Ulaş Ünal, Sevil Şen

分类: cs.CR, cs.AI, cs.LG

发布日期: 2025-07-06

备注: 17 pages, 6 figures, Submitted as a preprint


💡 一句话要点

提出基于图的零样本学习框架VOLTRON,用于检测未知恶意软件。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 恶意软件检测 零样本学习 图神经网络 变分图自编码器 孪生神经网络

📋 核心要点

  1. 现有基于机器学习的恶意软件检测方法依赖大量标注数据,难以有效识别新型、未知的恶意软件。
  2. 提出VOLTRON框架,结合变分图自编码器和孪生神经网络,利用图结构信息实现零样本恶意软件检测。
  3. 实验表明,VOLTRON在未知恶意软件检测中优于现有方法MaMaDroid,准确率达到96.24%,召回率达到95.20%。

📝 摘要(中文)

针对Android恶意软件对全球数百万用户构成的持续威胁,以及现有基于机器学习的方法依赖大量标注数据,难以有效检测新兴的、未知的恶意软件家族的问题,本文提出了一种新颖的零样本学习框架。该框架结合了变分图自编码器(VGAE)和孪生神经网络(SNN),无需特定恶意软件家族的先验样本即可识别恶意软件。该方法利用Android应用程序的图表示,即使在缺乏新威胁的标注数据的情况下,也能检测良性和恶意软件之间细微的结构差异。实验结果表明,该方法优于最先进的MaMaDroid,尤其是在零日恶意软件检测方面。对于未知恶意软件家族,该模型达到了96.24%的准确率和95.20%的召回率,突显了其对抗不断演变的Android威胁的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决Android平台上面临的新型恶意软件检测问题。传统的基于机器学习的恶意软件检测方法需要大量的标注数据进行训练,这使得它们在面对从未见过的恶意软件家族时表现不佳。因此,如何在缺乏标注数据的情况下,有效地检测新型恶意软件是一个重要的挑战。

核心思路:论文的核心思路是利用零样本学习的思想,通过学习良性软件和恶意软件的通用特征表示,从而实现对未知恶意软件家族的检测。具体来说,论文将Android应用程序表示为图结构,并利用变分图自编码器(VGAE)学习图的嵌入表示。然后,使用孪生神经网络(SNN)比较不同应用程序的嵌入表示,从而判断它们是否属于同一类别(良性或恶意)。

技术框架:VOLTRON框架主要包含以下几个阶段:1) 图构建:将Android应用程序转换为图结构,节点表示应用程序的组件(如函数、类),边表示组件之间的调用关系。2) 图嵌入:使用变分图自编码器(VGAE)学习图中每个节点的嵌入表示,从而将整个应用程序表示为一个向量。3) 相似度学习:使用孪生神经网络(SNN)学习不同应用程序嵌入表示之间的相似度,从而判断它们是否属于同一类别。4) 分类:根据相似度得分,将应用程序分类为良性或恶意。

关键创新:该论文的关键创新在于将图神经网络和零样本学习相结合,用于恶意软件检测。与传统的基于特征工程的方法相比,该方法能够自动学习应用程序的结构特征,从而更好地捕捉恶意软件的行为模式。此外,该方法不需要特定恶意软件家族的标注数据,因此能够有效地检测新型恶意软件。

关键设计:在图构建阶段,论文使用了静态分析技术提取应用程序的组件和调用关系。在图嵌入阶段,论文使用了两层GCN作为编码器,并使用内积解码器重构邻接矩阵。损失函数包括重构损失和KL散度损失。在相似度学习阶段,论文使用了对比损失函数,鼓励相似的样本具有相似的嵌入表示,不相似的样本具有不同的嵌入表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VOLTRON框架在零样本恶意软件检测方面表现出色,显著优于现有的最先进方法MaMaDroid。具体而言,对于未知恶意软件家族,VOLTRON达到了96.24%的准确率和95.20%的召回率,证明了其在检测新型Android恶意软件方面的有效性和鲁棒性。这些结果表明,基于图的零样本学习方法在恶意软件检测领域具有巨大的潜力。

🎯 应用场景

该研究成果可应用于移动安全领域,例如,集成到移动安全软件或在线恶意软件扫描服务中,用于实时检测和防御新型Android恶意软件。该方法无需大量标注数据,降低了模型更新和维护的成本,有助于提升移动设备的安全性和用户体验。未来,该方法可以扩展到其他平台或恶意软件类型,具有广阔的应用前景。

📄 摘要(原文)

The persistent threat of Android malware presents a serious challenge to the security of millions of users globally. While many machine learning-based methods have been developed to detect these threats, their reliance on large labeled datasets limits their effectiveness against emerging, previously unseen malware families, for which labeled data is scarce or nonexistent. To address this challenge, we introduce a novel zero-shot learning framework that combines Variational Graph Auto-Encoders (VGAE) with Siamese Neural Networks (SNN) to identify malware without needing prior examples of specific malware families. Our approach leverages graph-based representations of Android applications, enabling the model to detect subtle structural differences between benign and malicious software, even in the absence of labeled data for new threats. Experimental results show that our method outperforms the state-of-the-art MaMaDroid, especially in zero-day malware detection. Our model achieves 96.24% accuracy and 95.20% recall for unknown malware families, highlighting its robustness against evolving Android threats.