Semantic-Aware Contrastive Fine-Tuning: Boosting Multimodal Malware Classification with Discriminative Embeddings

📄 arXiv: 2504.21028v1 📥 PDF

作者: Ivan Montoya Sanchez, Shaswata Mitra, Aritran Piplai, Sudip Mittal

分类: cs.CR, cs.AI, cs.LG

发布日期: 2025-04-25

备注: 8 pages, 5 figures, 5 tables


💡 一句话要点

提出语义感知对比微调方法,提升多模态恶意软件分类的判别嵌入能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 恶意软件分类 对比学习 大型语言模型 多模态融合 少样本学习

📋 核心要点

  1. 现有恶意软件分类方法难以有效利用LLM生成的恶意软件描述,原因是语义嵌入重叠以及与二进制行为特征不一致。
  2. 提出一种对比微调(CFT)方法,通过选择高相似度和中等相似度的难负样本,优化LLM嵌入,提升恶意软件家族的区分能力。
  3. 实验结果表明,该方法在少样本恶意软件分类任务中显著优于现有方法,并在CIC-AndMal-2020数据集上取得了高达63.15%的分类准确率。

📝 摘要(中文)

恶意软件变种的快速演进需要强大的分类方法来增强网络安全。大型语言模型(LLM)在生成恶意软件描述以辅助家族分类方面具有潜力,但其效用受到语义嵌入重叠以及与二进制行为特征不一致的限制。我们提出了一种对比微调(CFT)方法,通过基于余弦相似度有针对性地选择难负样本来优化LLM嵌入,使LLM能够区分密切相关的恶意软件家族。我们的方法结合了高相似度负样本以增强判别能力,并结合中等相似度负样本以增加嵌入多样性,从而优化精度和泛化能力。在CIC-AndMal-2020和BODMAS数据集上的评估表明,我们优化的嵌入被集成到模型无关元学习(MAML)框架中的多模态分类器中,在少样本设置下表现出显著的改进:我们的方法在CIC-AndMal-2020上仅用20个样本就实现了63.15%的分类准确率,超过基线11-21个百分点,并超过了先前的负采样策略。消融研究证实了基于相似性的选择优于随机采样,增益为10-23%。此外,微调后的LLM生成了属性感知的描述,可以推广到未见过的变种,弥合了文本和二进制特征之间的差距。这项工作通过实现细致的语义区分来推进恶意软件分类,并为LLM适应网络安全挑战提供了一个可扩展的框架。

🔬 方法详解

问题定义:论文旨在解决多模态恶意软件分类中,大型语言模型(LLM)生成的恶意软件描述的语义嵌入存在重叠,导致难以区分相似恶意软件家族的问题。现有方法难以有效利用LLM的语义信息,且与二进制行为特征存在不一致性,限制了分类性能。

核心思路:论文的核心思路是通过对比微调(Contrastive Fine-Tuning, CFT)方法,优化LLM的嵌入空间,使其能够更好地区分密切相关的恶意软件家族。通过选择具有高相似度和中等相似度的难负样本进行训练,增强LLM的判别能力和泛化能力。

技术框架:整体框架包含以下几个主要阶段:1) 使用LLM生成恶意软件描述;2) 基于余弦相似度选择难负样本,包括高相似度负样本和中等相似度负样本;3) 使用对比损失函数对LLM进行微调,优化嵌入空间;4) 将微调后的LLM嵌入与二进制行为特征融合,构建多模态分类器;5) 使用模型无关元学习(MAML)框架进行少样本学习。

关键创新:论文的关键创新在于提出了基于相似度的难负样本选择策略,并将其应用于LLM的对比微调中。与传统的随机负采样方法相比,该策略能够更有效地挖掘具有区分性的负样本,从而提升LLM的判别能力。此外,论文还探索了高相似度和中等相似度负样本的组合使用,以平衡判别能力和泛化能力。

关键设计:在难负样本选择方面,论文使用余弦相似度作为度量标准,选择与正样本相似度较高的负样本。具体而言,选择策略包括两个部分:一部分是与正样本相似度最高的top-k个负样本(高相似度),另一部分是相似度位于中间范围的负样本(中等相似度)。对比损失函数采用标准的InfoNCE损失,用于拉近正样本对的距离,推远负样本对的距离。在多模态分类器方面,论文采用简单的特征拼接方式,将LLM嵌入和二进制行为特征进行融合。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,提出的CFT方法在CIC-AndMal-2020数据集上,仅使用20个样本就实现了63.15%的分类准确率,相比基线方法提升了11-21个百分点,并超越了先前的负采样策略。消融实验证明,基于相似性的负样本选择策略优于随机采样,带来了10-23%的性能提升。微调后的LLM能够生成属性感知的恶意软件描述,有效泛化到未见过的恶意软件变种。

🎯 应用场景

该研究成果可应用于自动化恶意软件分析和分类系统,提高网络安全防御能力。通过提升LLM对恶意软件家族的区分能力,可以更准确地识别新型恶意软件变种,并为安全分析人员提供更丰富的上下文信息。该方法还可扩展到其他安全领域,例如漏洞检测和入侵检测。

📄 摘要(原文)

The rapid evolution of malware variants requires robust classification methods to enhance cybersecurity. While Large Language Models (LLMs) offer potential for generating malware descriptions to aid family classification, their utility is limited by semantic embedding overlaps and misalignment with binary behavioral features. We propose a contrastive fine-tuning (CFT) method that refines LLM embeddings via targeted selection of hard negative samples based on cosine similarity, enabling LLMs to distinguish between closely related malware families. Our approach combines high-similarity negatives to enhance discriminative power and mid-tier negatives to increase embedding diversity, optimizing both precision and generalization. Evaluated on the CIC-AndMal-2020 and BODMAS datasets, our refined embeddings are integrated into a multimodal classifier within a Model-Agnostic Meta-Learning (MAML) framework on a few-shot setting. Experiments demonstrate significant improvements: our method achieves 63.15% classification accuracy with as few as 20 samples on CIC-AndMal-2020, outperforming baselines by 11--21 percentage points and surpassing prior negative sampling strategies. Ablation studies confirm the superiority of similarity-based selection over random sampling, with gains of 10-23%. Additionally, fine-tuned LLMs generate attribute-aware descriptions that generalize to unseen variants, bridging textual and binary feature gaps. This work advances malware classification by enabling nuanced semantic distinctions and provides a scalable framework for adapting LLMs to cybersecurity challenges.