McNdroid: A Longitudinal Multimodal Benchmark for Robust Drift Detection in Android Malware

📄 arXiv: 2605.06894v1 📥 PDF

作者: Md Mahmuduzzaman Kamol, Jesus Lopez, Saeefa Rubaiyet Nowmi, Emilia Rivas, Md Ahsanul Haque, Edward Raff, Aritran Piplai, Mohammad Saidur Rahman

分类: cs.CR, cs.LG

发布日期: 2026-05-07

备注: 28 pages, 14 figures, 14 tables


💡 一句话要点

提出McNdroid基准数据集,通过多模态融合解决Android恶意软件检测中的概念漂移问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Android安全 概念漂移 多模态融合 恶意软件检测 时间序列分析 鲁棒机器学习

📋 核心要点

  1. 核心问题:恶意软件检测模型在面对长期演进的威胁时,受概念漂移影响导致性能显著退化,且缺乏大规模纵向多模态基准。
  2. 方法要点:构建包含静态、动态及图结构三种对齐模态的McNdroid数据集,通过多模态融合策略提升模型在非平稳环境下的鲁棒性。
  3. 实验效果:验证了多模态融合在长跨度时间间隔下优于单一模态,并揭示了特征空间漂移与跨模态一致性下降的内在规律。

📝 摘要(中文)

现实世界中的机器学习系统必须应对概念漂移、对抗性攻击及多源异构特征带来的挑战。恶意软件检测领域天然具备这些复杂性,但高质量的数据集 curation 依然匮乏。本文提出了 McNdroid,这是目前已知规模最大的纵向多模态 Android 恶意软件基准数据集,涵盖 2013 年至 2025 年(除 2015 年外)的数据。McNdroid 为每个应用提供了三种对齐模态:基于清单与 Smali 代码的静态特征、基于沙箱执行的动态行为特征,以及基于函数调用图的图特征。通过时间分离的划分方式,我们评估了标准机器学习与深度学习检测器在不同训练-测试时间间隔下的表现。实验结果表明,模型性能随时间推移显著下降,而多模态融合在长跨度时间间隔下优于单一模态。此外,跨模态一致性随时间衰减,揭示了漂移对特征空间及模态间关联的影响。我们开源了 McNdroid 数据集、划分方案及代码,以支持安全关键领域中时间泛化与鲁棒多模态学习的研究。

🔬 方法详解

问题定义:论文旨在解决 Android 恶意软件检测中长期存在的“概念漂移”(Concept Drift)问题。现有方法多基于静态快照,难以应对恶意软件家族随时间演进带来的特征分布变化,且缺乏跨模态协同分析的基准支撑。

核心思路:通过构建纵向(Longitudinal)多模态数据集,将静态代码特征、动态行为特征与函数调用图特征对齐。核心假设是多模态融合能捕捉到比单一模态更具鲁棒性的特征表示,从而缓解单一模态随时间失效的问题。

技术框架:McNdroid 框架包含数据采集、特征提取、模态对齐与时间序列评估四个阶段。系统从 Android 应用中提取 Manifest/Smali 静态特征、沙箱执行日志动态特征以及函数调用图(FCG)结构特征,并按时间戳进行严格的训练集与测试集划分。

关键创新:首次在 Android 安全领域引入大规模、长跨度(2013-2025)的多模态基准。创新性地量化了“跨模态一致性”随时间的衰减,证明了漂移不仅影响单一特征空间,还破坏了模态间的语义关联。

关键设计:采用时间分离(Temporally separated)的划分策略,模拟真实部署场景下的模型老化。通过对比不同时间跨度下的模型性能,分析了模型解释性(Model Explanations)随时间演进的动态变化,为鲁棒性评估提供了多维视角。

📊 实验亮点

实验结果显示,随着训练与测试时间间隔的拉大,所有单一模态模型的检测性能均出现明显退化。相比之下,多模态融合模型在长跨度测试中表现出更强的稳定性,性能降幅显著低于单一模态。此外,研究通过量化分析发现,跨模态特征的一致性随时间推移而显著下降,这为理解恶意软件演进机制提供了重要实证依据。

🎯 应用场景

该研究主要应用于移动安全领域,特别是企业级移动威胁防御系统(MTD)和应用商店的自动化恶意软件扫描。通过利用 McNdroid 基准,开发者可以构建更具时间鲁棒性的检测模型,减少因恶意软件变种更新导致的误报与漏报,提升安全防御系统的生命周期管理能力。

📄 摘要(原文)

Machine learning (ML) in real-world systems must contend with concept drift, adversarial actors, and a spectrum of potential features with varying costs and benefits. Malware naturally exhibits all of these complexities, but for the same reason, it is challenging to curate and organize data to study these factors. We present McNdroid, to our knowledge the largest longitudinal multimodal Android malware benchmark for malware detection and drift analysis. McNdroid spans 2013--2025, excluding 2015, and represents each application with three aligned modalities--static features from manifests and smali code, dynamic behavioral features from sandbox execution, and graph-based features from function-call graphs. Using temporally separated splits, we evaluate standard ML and deep-learning detectors across increasing train--test time gaps. Results show clear temporal degradation, while multimodal fusion outperforms the best single modality across long-term temporal gaps. Cross-modal agreement also declines over time, suggesting that drift affects both individual feature spaces and the consistency among modalities. We further analyze modality-specific drift, malware-family evolution, and temporal changes in model explanations. We publicly release McNdroid, benchmark splits, and code to support reproducible research on temporal generalization and robust multimodal learning in security-critical, non-stationary settings.