Evaluating LLM-Generated Obfuscated XSS Payloads for Machine Learning-Based Detection

📄 arXiv: 2604.19526v1 📥 PDF

作者: Divyesh Gabbireddy, Suman Saha

分类: cs.CR, cs.LG, cs.SE

发布日期: 2026-04-21


💡 一句话要点

利用大语言模型生成混淆的XSS攻击载荷,并评估其对机器学习检测的有效性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: XSS攻击 混淆技术 大语言模型 对抗样本生成 运行时行为分析

📋 核心要点

  1. XSS攻击依赖混淆技术绕过检测,现有方法侧重语法多样性,忽略了行为一致性。
  2. 提出一种基于LLM的XSS混淆载荷生成和评估流程,结合确定性转换和运行时行为分析。
  3. 实验表明,微调后的LLM能提升行为匹配率,但仍有局限,行为过滤对检测性能至关重要。

📝 摘要(中文)

跨站脚本(XSS)是一种持续存在的Web安全漏洞,尤其是在混淆技术改变恶意载荷的表面形式同时保留其行为时。这些转换使得传统和基于机器学习的检测系统难以可靠地识别攻击。现有的混淆载荷生成方法通常强调语法多样性,但并不总是确保生成的样本在行为上仍然有效。本文提出了一种结构化的流程,用于使用大型语言模型(LLM)生成和评估混淆的XSS载荷。该流程结合了确定性的转换技术与基于LLM的生成,并使用基于浏览器的运行时评估程序来比较受控执行环境中的载荷行为。这允许通过可观察的运行时行为而不是单独的语法相似性来评估生成的样本。在评估中,未经调整的基线语言模型实现了0.15的运行时行为匹配率,而对行为保持的源-目标混淆对进行微调将匹配率提高到0.22。尽管这代表了可衡量的改进,但结果表明,当前的LLM仍然难以生成能够保持观察到的运行时行为的混淆。下游分类器的评估进一步表明,在这种设置中,添加生成的载荷并不能提高检测性能,尽管可以合并经过行为过滤的生成样本而不会显着降低性能。总的来说,该研究展示了将生成模型应用于对抗性安全数据生成的希望和局限性,并强调了运行时行为检查在提高下游检测系统生成数据质量方面的重要性。

🔬 方法详解

问题定义:论文旨在解决XSS攻击中,攻击者使用混淆技术绕过现有检测系统的问题。现有方法主要关注生成语法上多样的payload,但忽略了payload在混淆前后行为的一致性,导致生成的payload可能无法成功执行或与原始payload的行为不一致,从而影响了检测系统的评估和训练。

核心思路:论文的核心思路是利用大型语言模型(LLM)生成混淆的XSS payload,并引入运行时行为评估机制,确保生成的payload在混淆前后保持行为一致性。通过这种方式,可以生成更具实际意义的对抗样本,从而更好地评估和提升机器学习模型的XSS检测能力。

技术框架:该论文的技术框架主要包含三个阶段:1) 使用确定性转换技术和LLM生成混淆的XSS payload;2) 使用基于浏览器的运行时评估程序,在受控环境中执行原始payload和混淆后的payload,并记录它们的运行时行为;3) 比较原始payload和混淆后payload的运行时行为,计算行为匹配率,并评估生成的payload对下游XSS检测器的影响。

关键创新:该论文的关键创新在于引入了运行时行为评估机制,用于验证LLM生成的混淆payload的有效性。与以往只关注语法多样性的方法不同,该方法强调生成的payload必须在运行时表现出与原始payload相同的行为。这种方法更贴近实际攻击场景,能够更准确地评估和提升XSS检测系统的性能。

关键设计:论文的关键设计包括:1) 使用行为保持的源-目标混淆对对LLM进行微调,以提高LLM生成行为一致的混淆payload的能力;2) 设计了一种基于浏览器的运行时评估程序,用于在受控环境中执行payload并记录其运行时行为;3) 使用行为匹配率作为评估指标,衡量LLM生成的混淆payload与原始payload的行为一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过行为保持的源-目标混淆对微调后,LLM生成的XSS payload的行为匹配率从0.15提升到0.22。虽然提升幅度有限,但验证了该方法的有效性。下游分类器评估表明,添加未经行为过滤的生成payload并不能提高检测性能,但经过行为过滤的生成样本可以被合并,且不会显著降低性能。

🎯 应用场景

该研究成果可应用于Web应用安全测试、渗透测试和XSS漏洞挖掘等领域。通过自动生成大量有效的混淆XSS payload,可以更全面地评估Web应用的安全性,并提升XSS检测系统的性能。此外,该方法还可以用于生成对抗样本,训练更鲁棒的机器学习模型,提高其在实际攻击场景中的防御能力。

📄 摘要(原文)

Cross-site scripting (XSS) remains a persistent web security vulnerability, especially because obfuscation can change the surface form of a malicious payload while preserving its behavior. These transformations make it difficult for traditional and machine learning-based detection systems to reliably identify attacks. Existing approaches for generating obfuscated payloads often emphasize syntactic diversity, but they do not always ensure that the generated samples remain behaviorally valid. This paper presents a structured pipeline for generating and evaluating obfuscated XSS payloads using large language models (LLMs). The pipeline combines deterministic transformation techniques with LLM-based generation and uses a browser- based runtime evaluation procedure to compare payload behavior in a controlled execution environment. This allows generated samples to be assessed through observable runtime behavior rather than syntactic similarity alone. In the evaluation, an untuned baseline language model achieves a runtime behavior match rate of 0.15, while fine-tuning on behavior-preserving source-target obfuscation pairs improves the match rate to 0.22. Although this represents a measurable improvement, the results show that current LLMs still struggle to generate obfuscations that preserve observed runtime behavior. A downstream classifier evaluation further shows that adding generated payloads does not improve detection performance in this setting, although behavior- filtered generated samples can be incorporated without materially degrading performance. Overall, the study demonstrates both the promise and the limits of applying generative models to adversarial security data generation and emphasizes the importance of runtime behavior checks in improving the quality of generated data for downstream detection systems.