Large Multimodal Agents for Accurate Phishing Detection with Enhanced Token Optimization and Cost Reduction

作者: Fouad Trad, Ali Chehab

分类: cs.AI, cs.CL, cs.CR

发布日期: 2024-12-03

备注: Accepted in the 2nd International Conference on Foundation and Large Language Models (FLLM2024)

DOI: 10.1109/FLLM63129.2024.10852444

💡 一句话要点

提出基于多模态大模型的两阶段Agent架构，用于低成本高精度钓鱼网站检测

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 钓鱼网站检测 多模态学习 大模型 Agent架构 成本优化

📋 核心要点

现有钓鱼网站检测方法在准确性和成本之间难以平衡，尤其是在处理复杂攻击时。
论文提出一种两阶段Agent架构，利用URL和网页截图信息，降低API调用次数，从而降低成本。
实验表明，该方法在保持检测性能的同时，显著降低了API使用成本，提高了性价比。

📝 摘要（中文）

本文探讨了使用大型多模态Agent，特别是Gemini 1.5 Flash和GPT-4o mini，通过API分析URL和网页截图，以实现高效且经济的钓鱼网站检测。研究表明，结合这两种数据类型显著提高了检测性能。为了降低API使用成本，本文提出了一种两阶段Agent架构：首先，一个Agent评估URL，如果结果不确定，则第二个Agent评估URL和截图。这种方法不仅保持了强大的检测性能，还通过减少不必要的多输入查询显著降低了API成本。成本分析表明，与多模态方法相比，使用Agent架构，GPT-4o mini每100美元可以处理大约4.2倍的网站（107,440 vs. 25,626），Gemini 1.5 Flash可以处理大约2.6倍的网站（2,232,142 vs. 862,068）。这些发现强调了Agent架构相对于多模态方法的显著经济效益，为旨在利用先进AI进行钓鱼检测同时控制费用的组织提供了一种可行的解决方案。

🔬 方法详解

问题定义：论文旨在解决钓鱼网站检测中准确性和成本难以兼顾的问题。现有方法要么准确率不高，要么需要大量计算资源和人工干预，成本较高。特别是基于API的大模型方法，每次查询都会产生费用，对于大规模应用来说，成本是一个重要的瓶颈。

核心思路：论文的核心思路是利用Agent架构，通过分阶段处理来减少不必要的API调用。首先使用轻量级的URL分析Agent进行初步判断，只有当URL信息不足以做出判断时，才调用更昂贵的多模态Agent进行进一步分析。这样可以避免对所有网站都进行多模态分析，从而降低整体成本。

技术框架：整体框架包含两个主要阶段。第一阶段是URL分析Agent，它接收URL作为输入，并输出一个初步的判断结果（钓鱼/非钓鱼/不确定）。如果结果为不确定，则进入第二阶段。第二阶段是多模态分析Agent，它接收URL和网页截图作为输入，并输出最终的判断结果。两个阶段的Agent可以是不同的模型，例如第一阶段使用GPT-4o mini，第二阶段使用Gemini 1.5 Flash。

关键创新：最重要的创新点在于两阶段Agent架构，它通过分阶段处理来减少不必要的API调用，从而降低成本。与传统的单阶段多模态方法相比，该方法可以在保持检测性能的同时，显著降低API使用成本。这种架构的设计思想可以推广到其他需要权衡准确性和成本的应用场景。

关键设计：论文的关键设计在于如何确定何时从第一阶段过渡到第二阶段。这可以通过设置一个置信度阈值来实现。如果URL分析Agent的置信度低于阈值，则认为结果不确定，需要进行多模态分析。具体的阈值设置需要根据实际情况进行调整，以达到最佳的性能和成本平衡。

🖼️ 关键图片

📊 实验亮点

实验结果表明，与直接使用多模态Agent相比，使用两阶段Agent架构可以显著降低API使用成本。具体来说，GPT-4o mini每100美元可以处理的网站数量提高了4.2倍（107,440 vs. 25,626），Gemini 1.5 Flash提高了2.6倍（2,232,142 vs. 862,068）。同时，该方法在保持检测性能方面表现良好，证明了其在实际应用中的可行性和有效性。

🎯 应用场景

该研究成果可应用于各种网络安全产品和服务中，例如浏览器安全插件、邮件安全网关、企业安全运营中心等。通过集成该方法，可以有效提高钓鱼网站的检测准确率，降低误报率，并显著降低运营成本，从而为用户提供更安全、更经济的网络安全保障。此外，该研究思路也可以推广到其他需要权衡准确性和成本的应用场景，例如恶意软件检测、垃圾邮件过滤等。

📄 摘要（原文）

With the rise of sophisticated phishing attacks, there is a growing need for effective and economical detection solutions. This paper explores the use of large multimodal agents, specifically Gemini 1.5 Flash and GPT-4o mini, to analyze both URLs and webpage screenshots via APIs, thus avoiding the complexities of training and maintaining AI systems. Our findings indicate that integrating these two data types substantially enhances detection performance over using either type alone. However, API usage incurs costs per query that depend on the number of input and output tokens. To address this, we propose a two-tiered agentic approach: initially, one agent assesses the URL, and if inconclusive, a second agent evaluates both the URL and the screenshot. This method not only maintains robust detection performance but also significantly reduces API costs by minimizing unnecessary multi-input queries. Cost analysis shows that with the agentic approach, GPT-4o mini can process about 4.2 times as many websites per $100 compared to the multimodal approach (107,440 vs. 25,626), and Gemini 1.5 Flash can process about 2.6 times more websites (2,232,142 vs. 862,068). These findings underscore the significant economic benefits of the agentic approach over the multimodal method, providing a viable solution for organizations aiming to leverage advanced AI for phishing detection while controlling expenses.

Large Multimodal Agents for Accurate Phishing Detection with Enhanced Token Optimization and Cost Reduction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理