LLM-Based Identification of Infostealer Infection Vectors from Screenshots: The Case of Aurora

📄 arXiv: 2507.23611v1 📥 PDF

作者: Estelle Ruellan, Eric Clay, Nicholas Ascoli

分类: cs.CR, cs.AI, cs.CV

发布日期: 2025-07-31


💡 一句话要点

利用LLM从信息窃取器感染截图中识别感染向量,以Aurora为例。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 恶意软件分析 信息窃取器 感染向量 大型语言模型 威胁情报

📋 核心要点

  1. 现有恶意软件分析主要依赖日志,忽略了感染截图等工件,缺乏对感染向量的有效识别。
  2. 提出利用LLM(gpt-4o-mini)分析感染截图,提取入侵指标,映射感染向量,追踪恶意软件活动。
  3. 实验从1000张截图中提取了337个URL和246个文件,识别了三个恶意软件活动,验证了方法的有效性。

📝 摘要(中文)

信息窃取器从受感染的系统中窃取凭据、会话cookie和敏感数据。2024年报告了超过2900万条窃取器日志,大规模手动分析和缓解实际上是不可行的。虽然大多数研究集中于主动恶意软件检测,但在利用窃取器日志及其相关工件进行被动分析方面仍然存在显著差距。特别是,感染工件(如在入侵点捕获的屏幕截图)在当前文献中很大程度上被忽视。本文介绍了一种利用大型语言模型(LLM)的新方法,更具体地说是gpt-4o-mini,来分析感染屏幕截图,以提取潜在的入侵指标(IoC),映射感染向量并跟踪活动。以Aurora信息窃取器为例,我们展示了LLM如何处理屏幕截图以识别感染向量,例如恶意URL、安装程序文件和被利用的软件主题。我们的方法从1000个屏幕截图中提取了337个可操作的URL和246个相关文件,揭示了关键的恶意软件分发方法和社交工程策略。通过关联提取的文件名、URL和感染主题,我们识别了三个不同的恶意软件活动,证明了LLM驱动的分析在揭示感染工作流程和增强威胁情报方面的潜力。通过将恶意软件分析从传统的基于日志的检测方法转变为利用感染屏幕截图的被动、工件驱动的方法,这项研究提出了一种可扩展的方法来识别感染向量并实现早期干预。

🔬 方法详解

问题定义:现有恶意软件分析方法主要依赖于日志数据,而忽略了感染过程中的屏幕截图等工件。这些工件包含了丰富的感染向量信息,例如恶意URL、安装文件等。传统的手动分析方法难以应对大规模的窃取器日志,且缺乏对感染向量的有效识别和关联分析。因此,需要一种能够自动、高效地从感染截图中提取信息并识别感染向量的方法。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大文本理解和生成能力,将感染截图作为输入,通过LLM分析截图中的文本和图像信息,提取出潜在的入侵指标(IoC),例如恶意URL、文件名、软件主题等。然后,通过关联这些IoC,可以映射感染向量,追踪恶意软件活动,从而实现对恶意软件感染过程的全面理解。

技术框架:该方法的技术框架主要包括以下几个阶段:1) 收集感染截图数据;2) 使用LLM(gpt-4o-mini)对截图进行分析,提取文本信息;3) 从提取的文本信息中识别潜在的入侵指标(IoC),例如URL、文件名等;4) 对提取的IoC进行关联分析,例如通过URL和文件名之间的关系,识别恶意软件的传播途径;5) 根据关联分析的结果,识别不同的恶意软件活动。

关键创新:该方法最重要的技术创新点在于将LLM应用于恶意软件感染截图的分析,从而实现对感染向量的自动识别和关联分析。与传统的基于日志的分析方法相比,该方法能够利用更多的信息源,从而更全面地理解恶意软件的感染过程。此外,该方法还能够通过关联不同的IoC,识别恶意软件的传播途径和活动模式。

关键设计:论文使用了gpt-4o-mini作为LLM,并针对恶意软件感染截图的特点,设计了特定的prompt,以提高LLM的分析效果。此外,论文还设计了一套规则,用于从LLM的输出中提取IoC,并对提取的IoC进行清洗和过滤。在关联分析方面,论文使用了基于图的算法,将不同的IoC表示为图中的节点,并通过分析节点之间的关系,识别恶意软件的传播途径和活动模式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够有效地从感染截图中提取入侵指标,并识别恶意软件的感染向量。从1000张Aurora信息窃取器的感染截图中,提取了337个可操作的URL和246个相关文件。通过关联提取的文件名、URL和感染主题,识别了三个不同的恶意软件活动。这些结果表明,该方法具有较高的准确性和效率,能够为恶意软件分析提供有力的支持。

🎯 应用场景

该研究成果可应用于威胁情报分析、恶意软件溯源、网络安全防御等领域。通过自动分析感染截图,可以快速识别恶意软件的感染向量,帮助安全人员及时采取防御措施,降低恶意软件的危害。此外,该方法还可以用于追踪恶意软件的传播途径和活动模式,为恶意软件溯源提供线索。

📄 摘要(原文)

Infostealers exfiltrate credentials, session cookies, and sensitive data from infected systems. With over 29 million stealer logs reported in 2024, manual analysis and mitigation at scale are virtually unfeasible/unpractical. While most research focuses on proactive malware detection, a significant gap remains in leveraging reactive analysis of stealer logs and their associated artifacts. Specifically, infection artifacts such as screenshots, image captured at the point of compromise, are largely overlooked by the current literature. This paper introduces a novel approach leveraging Large Language Models (LLMs), more specifically gpt-4o-mini, to analyze infection screenshots to extract potential Indicators of Compromise (IoCs), map infection vectors, and track campaigns. Focusing on the Aurora infostealer, we demonstrate how LLMs can process screenshots to identify infection vectors, such as malicious URLs, installer files, and exploited software themes. Our method extracted 337 actionable URLs and 246 relevant files from 1000 screenshots, revealing key malware distribution methods and social engineering tactics. By correlating extracted filenames, URLs, and infection themes, we identified three distinct malware campaigns, demonstrating the potential of LLM-driven analysis for uncovering infection workflows and enhancing threat intelligence. By shifting malware analysis from traditional log-based detection methods to a reactive, artifact-driven approach that leverages infection screenshots, this research presents a scalable method for identifying infection vectors and enabling early intervention.