MH-1M: A 1.34 Million-Sample Comprehensive Multi-Feature Android Malware Dataset for Machine Learning, Deep Learning, Large Language Models, and Threat Intelligence Research

📄 arXiv: 2511.00342v1 📥 PDF

作者: Hendrio Braganca, Diego Kreutz, Vanderson Rocha, Joner Assolin, and Eduardo Feitosa

分类: cs.CR, cs.AI, cs.LG, cs.PF

发布日期: 2025-11-01

备注: 17 pages, 7 figures, 13 tables, submitted to the Scientific Data journal published by Nature Research


💡 一句话要点

提出MH-1M:一个包含134万样本的综合性Android恶意软件多特征数据集,用于机器学习等研究。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Android恶意软件 数据集 机器学习 深度学习 威胁情报 VirusTotal 多特征

📋 核心要点

  1. 现有Android恶意软件研究缺乏大规模、多特征、更新及时的公开数据集,限制了机器学习等方法的应用。
  2. MH-1M数据集通过收集大量应用样本,提取多种特征,并利用VirusTotal API进行恶意软件分类,构建了一个综合数据集。
  3. 该数据集包含超过134万个应用样本,400GB数据,为恶意软件检测、分析和威胁情报研究提供了宝贵资源。

📝 摘要(中文)

本文提出了MH-1M,一个用于高级Android恶意软件研究的最新、最全面的数据集之一。该数据集包含1,340,515个应用程序,涵盖了广泛的特征和丰富的元数据。为了确保准确的恶意软件分类,我们采用了VirusTotal API,集成了多个检测引擎以进行全面和可靠的评估。我们的GitHub、Figshare和Harvard Dataverse存储库提供了对已处理数据集及其大量补充元数据的开放访问,总计超过400 GB的数据,包括特征提取管道的输出以及相应的VirusTotal报告。我们的研究结果强调了MH-1M数据集在理解不断发展的恶意软件领域中的宝贵作用。

🔬 方法详解

问题定义:当前Android恶意软件检测研究面临缺乏大规模、多维度、时效性强的数据集的问题。现有数据集可能样本量不足,特征覆盖不全面,或者更新不及时,难以满足机器学习、深度学习和大型语言模型等先进技术的需求,阻碍了恶意软件分析和威胁情报研究的进展。

核心思路:论文的核心思路是构建一个大规模、多特征、包含丰富元数据的Android恶意软件数据集,以促进相关领域的研究。通过收集大量应用样本,提取多种特征,并利用VirusTotal API进行恶意软件分类,提供一个全面、可靠的数据集。

技术框架:MH-1M数据集的构建流程主要包括以下几个阶段:1) 数据收集:收集大量的Android应用程序样本。2) 特征提取:从应用程序中提取多种特征,包括静态特征(如权限、API调用等)和动态特征(如运行时行为)。3) 恶意软件分类:利用VirusTotal API,集成多个检测引擎对应用程序进行恶意软件分类,并生成相应的报告。4) 数据存储与发布:将处理后的数据集及其元数据存储在GitHub、Figshare和Harvard Dataverse等存储库中,供研究人员公开访问。

关键创新:MH-1M数据集的关键创新在于其规模、全面性和时效性。与现有数据集相比,MH-1M包含更多的样本、更广泛的特征和更及时的更新,能够更好地反映Android恶意软件的最新发展趋势。此外,该数据集还提供了丰富的元数据,包括VirusTotal报告和特征提取管道的输出,方便研究人员进行深入分析。

关键设计:数据集包含1,340,515个应用程序样本,数据量超过400GB。恶意软件分类依赖于VirusTotal API,集成了多个检测引擎的结果,以提高分类的准确性和可靠性。数据集以开放访问的形式发布在多个存储库中,方便研究人员获取和使用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MH-1M数据集包含1,340,515个Android应用程序样本,总数据量超过400GB,是目前最全面的Android恶意软件数据集之一。通过集成VirusTotal API,数据集提供了可靠的恶意软件分类结果。该数据集的开放访问性极大地促进了恶意软件研究的进展。

🎯 应用场景

MH-1M数据集可广泛应用于Android恶意软件检测、分析和威胁情报研究。研究人员可以利用该数据集训练和评估机器学习、深度学习和大型语言模型等算法,提高恶意软件检测的准确性和效率。此外,该数据集还可以用于分析恶意软件的演变趋势,识别新的恶意软件家族,并为安全厂商提供威胁情报。

📄 摘要(原文)

We present MH-1M, one of the most comprehensive and up-to-date datasets for advanced Android malware research. The dataset comprises 1,340,515 applications, encompassing a wide range of features and extensive metadata. To ensure accurate malware classification, we employ the VirusTotal API, integrating multiple detection engines for comprehensive and reliable assessment. Our GitHub, Figshare, and Harvard Dataverse repositories provide open access to the processed dataset and its extensive supplementary metadata, totaling more than 400 GB of data and including the outputs of the feature extraction pipeline as well as the corresponding VirusTotal reports. Our findings underscore the MH-1M dataset's invaluable role in understanding the evolving landscape of malware.