Improving Generalization on Cybersecurity Tasks with Multi-Modal Contrastive Learning

作者: Jianan Huang, Rodolfo V. Valentim, Luca Vassio, Matteo Boffa, Marco Mellia, Idilio Drago, Dario Rossi

分类: cs.CR, cs.AI

发布日期: 2026-03-20

备注: Submitted to Euro S&P - 5th International Workshop on Designing and Measuring Security in Systems with AI

💡 一句话要点

提出多模态对比学习框架，提升网络安全任务中的泛化能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多模态学习 对比学习 网络安全 威胁分类 泛化能力

📋 核心要点

网络安全中的机器学习模型常因泛化性问题而失效，原因是模型学习了表面模式而非深层安全概念。
论文提出一种两阶段多模态对比学习框架，利用文本漏洞描述指导payload分类，实现知识迁移。
实验结果表明，该方法在私有数据集和合成基准上均能有效减少shortcut learning。

📝 摘要（中文）

本文研究了对比多模态学习在提升网络安全任务中机器学习性能方面的应用，旨在将来自数据丰富模态（如文本）的知识迁移到数据稀缺模态（如payload）。以威胁分类为例，提出了一个两阶段多模态对比学习框架，该框架使用文本漏洞描述来指导payload分类。首先，通过在描述上进行对比学习，构建一个语义上有意义的嵌入空间。然后，将payload与该空间对齐，从而将知识从文本转移到payload。在大型私有数据集和由公共CVE描述和LLM生成的payload构建的合成基准上评估了该方法。结果表明，该方法在两个基准上都减少了对baseline的shortcut learning。论文开源了合成基准和源代码。

🔬 方法详解

问题定义：网络安全领域中，机器学习模型在受控环境下表现良好，但在实际生产环境中性能往往下降，这是由于模型学习了数据中的表面相关性（shortcuts），而非真正的安全概念。现有方法难以有效利用不同模态的数据进行知识迁移，从而提升模型的泛化能力。

核心思路：论文的核心思路是利用对比学习，将数据丰富模态（如文本漏洞描述）的知识迁移到数据稀缺模态（如payload）。通过构建一个共享的语义空间，使得不同模态的数据能够在该空间中对齐，从而实现知识的有效传递。这样可以帮助模型学习更深层次的安全概念，减少对表面相关性的依赖。

技术框架：该框架包含两个主要阶段：第一阶段是文本对比学习阶段，利用对比学习方法，在文本漏洞描述上训练一个嵌入模型，构建一个语义上有意义的嵌入空间。第二阶段是payload对齐阶段，将payload数据映射到第一阶段构建的嵌入空间中，使得payload数据能够与文本描述在语义上对齐。最终，利用对齐后的payload表示进行威胁分类。

关键创新：该论文的关键创新在于提出了一个两阶段的多模态对比学习框架，该框架能够有效地将文本模态的知识迁移到payload模态，从而提升模型在网络安全任务中的泛化能力。与传统的单模态学习方法相比，该方法能够更好地利用不同模态的数据，学习更深层次的安全概念。

关键设计：在文本对比学习阶段，使用了InfoNCE损失函数来训练嵌入模型，目标是使得语义相似的文本描述在嵌入空间中距离更近，而语义不相似的文本描述距离更远。在payload对齐阶段，使用了线性映射将payload数据映射到文本嵌入空间中，并使用均方误差损失函数来最小化payload表示与对应文本表示之间的距离。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在大型私有数据集和合成基准上都优于baseline方法，能够有效减少shortcut learning。具体而言，在合成基准上，该方法相比于baseline方法，在泛化性能上取得了显著提升，证明了多模态对比学习在提升网络安全模型泛化能力方面的有效性。

🎯 应用场景

该研究成果可应用于入侵检测系统、恶意软件分析、漏洞挖掘等网络安全领域。通过利用多模态数据，可以提升安全模型的准确性和鲁棒性，从而更有效地防御网络攻击。未来，该方法可以扩展到其他安全任务，例如恶意代码检测、网络流量分析等，具有广阔的应用前景。

📄 摘要（原文）

The use of ML in cybersecurity has long been impaired by generalization issues: Models that work well in controlled scenarios fail to maintain performance in production. The root cause often lies in ML algorithms learning superficial patterns (shortcuts) rather than underlying cybersecurity concepts. We investigate contrastive multi-modal learning as a first step towards improving ML performance in cybersecurity tasks. We aim at transferring knowledge from data-rich modalities, such as text, to data-scarce modalities, such as payloads. We set up a case study on threat classification and propose a two-stage multi-modal contrastive learning framework that uses textual vulnerability descriptions to guide payload classification. First, we construct a semantically meaningful embedding space using contrastive learning on descriptions. Then, we align payloads to this space, transferring knowledge from text to payloads. We evaluate the approach on a large-scale private dataset and a synthetic benchmark built from public CVE descriptions and LLM-generated payloads. The methodology appears to reduce shortcut learning over baselines on both benchmarks. We release our synthetic benchmark and source code as open source.

Improving Generalization on Cybersecurity Tasks with Multi-Modal Contrastive Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理