Multimodal Large Language Models for Phishing Webpage Detection and Identification
作者: Jehyun Lee, Peiyuan Lim, Bryan Hooi, Dinil Mon Divakaran
分类: cs.CR, cs.AI
发布日期: 2024-08-12
备注: To appear in eCrime 2024
💡 一句话要点
提出基于多模态大语言模型的钓鱼网页检测与识别方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 钓鱼网页检测 多模态学习 大语言模型 品牌识别 网络安全
📋 核心要点
- 现有基于品牌的钓鱼检测模型维护成本高,需要定期更新数据集和参考网站列表。
- 利用多模态LLM理解网页的视觉和文本信息,识别品牌并验证域名,从而检测钓鱼攻击。
- 实验表明,该系统在高精度下实现了高检测率,优于现有方法,并具有抗对抗攻击能力。
📝 摘要(中文)
为了解决检测钓鱼网页这一难题,研究人员已经开发了许多解决方案,特别是基于机器学习(ML)算法的解决方案。其中,基于品牌的钓鱼检测,即利用计算机视觉模型检测给定网页是否模仿了知名品牌,受到了广泛关注。然而,此类模型的维护成本高昂且困难,因为它们需要使用标记数据集进行重新训练,而这些数据集必须定期和持续地收集。此外,它们还需要维护一个良好的知名网站参考列表和相关的元数据,以实现有效的性能。本文旨在研究大型语言模型(LLM),特别是多模态LLM,在检测钓鱼网页方面的有效性。鉴于LLM是在大量数据语料库上进行预训练的,我们旨在利用它们对网页不同方面(logo、主题、favicon等)的理解来识别给定网页的品牌,并将识别出的品牌与URL中的域名进行比较,以检测钓鱼攻击。我们提出了一个两阶段系统,在这两个阶段都使用LLM:第一阶段侧重于品牌识别,第二阶段验证域名。我们在新收集的数据集上进行了全面的评估。实验表明,基于LLM的系统以高精度实现了高检测率;重要的是,它还为决策提供了可解释的证据。我们的系统也明显优于最先进的基于品牌的钓鱼检测系统,同时展示了对两种已知对抗攻击的鲁棒性。
🔬 方法详解
问题定义:论文旨在解决钓鱼网页检测问题,特别是基于品牌模仿的钓鱼攻击。现有基于计算机视觉的品牌检测方法需要大量标注数据进行训练和维护,成本高昂,且容易受到对抗攻击的影响。
核心思路:论文的核心思路是利用预训练的多模态大语言模型(MLLM)的强大理解能力,无需大量标注数据,即可识别网页的品牌信息,并结合域名信息判断是否为钓鱼网站。这种方法旨在降低维护成本,提高检测精度,并增强对对抗攻击的鲁棒性。
技术框架:该系统包含两个阶段:1) 品牌识别阶段:MLLM分析网页的视觉元素(如logo、主题、favicon)和文本信息,识别网页模仿的品牌。2) 域名验证阶段:将识别出的品牌与网页的域名进行比较,如果两者不一致,则判定为钓鱼网站。
关键创新:该方法的核心创新在于将多模态大语言模型应用于钓鱼网页检测,利用其强大的预训练知识和多模态理解能力,避免了传统方法对大量标注数据的依赖。同时,结合品牌识别和域名验证两个阶段,提高了检测的准确性和可靠性。
关键设计:论文中没有详细说明具体的参数设置、损失函数或网络结构等技术细节。但是,可以推断,品牌识别阶段可能使用了某种形式的提示学习(Prompt Learning),引导MLLM输出品牌信息。域名验证阶段则是一个简单的字符串匹配过程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于LLM的系统在高精度下实现了高检测率,优于最先进的基于品牌的钓鱼检测系统。此外,该系统还展示了对两种已知对抗攻击的鲁棒性,表明其具有更强的实用价值。
🎯 应用场景
该研究成果可应用于网络安全领域,用于自动检测和识别钓鱼网站,保护用户免受网络诈骗。该方法可以集成到浏览器插件、安全软件或云安全服务中,提高网络安全防护能力。未来,该方法还可以扩展到其他类型的网络欺诈检测,例如恶意软件传播和虚假信息识别。
📄 摘要(原文)
To address the challenging problem of detecting phishing webpages, researchers have developed numerous solutions, in particular those based on machine learning (ML) algorithms. Among these, brand-based phishing detection that uses models from Computer Vision to detect if a given webpage is imitating a well-known brand has received widespread attention. However, such models are costly and difficult to maintain, as they need to be retrained with labeled dataset that has to be regularly and continuously collected. Besides, they also need to maintain a good reference list of well-known websites and related meta-data for effective performance. In this work, we take steps to study the efficacy of large language models (LLMs), in particular the multimodal LLMs, in detecting phishing webpages. Given that the LLMs are pretrained on a large corpus of data, we aim to make use of their understanding of different aspects of a webpage (logo, theme, favicon, etc.) to identify the brand of a given webpage and compare the identified brand with the domain name in the URL to detect a phishing attack. We propose a two-phase system employing LLMs in both phases: the first phase focuses on brand identification, while the second verifies the domain. We carry out comprehensive evaluations on a newly collected dataset. Our experiments show that the LLM-based system achieves a high detection rate at high precision; importantly, it also provides interpretable evidence for the decisions. Our system also performs significantly better than a state-of-the-art brand-based phishing detection system while demonstrating robustness against two known adversarial attacks.