Enhancing GraphQL Security by Detecting Malicious Queries Using Large Language Models, Sentence Transformers, and Convolutional Neural Networks

📄 arXiv: 2508.11711v2 📥 PDF

作者: Irash Perera, Hiranya Abeyrathne, Sanjeewa Malalgoda, Arshardh Ifthikar

分类: cs.CR, cs.AI, cs.LG

发布日期: 2025-08-14 (更新: 2025-10-08)


💡 一句话要点

提出基于LLM、Sentence Transformer和CNN的GraphQL恶意查询检测方法,提升API安全性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GraphQL安全 恶意查询检测 大型语言模型 Sentence Transformer 卷积神经网络 API安全 深度学习

📋 核心要点

  1. 传统API安全机制难以有效应对GraphQL的动态特性带来的安全漏洞,如DoS攻击和数据泄露。
  2. 利用LLM进行动态schema配置,结合Sentence Transformer进行上下文嵌入,再使用CNN等模型进行恶意查询分类。
  3. 实验结果表明,该方法能高精度检测SQL注入、OS命令注入和XSS攻击,并有效缓解DoS和SSRF攻击。

📝 摘要(中文)

GraphQL的灵活性在提高数据获取效率的同时,也带来了独特的安全漏洞,传统API安全机制难以有效应对。恶意的GraphQL查询可能利用其动态特性,导致拒绝服务攻击、通过注入进行数据泄露等。现有解决方案,如静态分析、速率限制和通用Web应用防火墙,对复杂的、上下文感知的攻击提供的保护有限。本文提出了一种新颖的、AI驱动的实时检测恶意GraphQL查询的方法。该方法结合了静态分析与机器学习技术,包括用于动态schema配置的大型语言模型(LLM)、用于查询payload上下文嵌入的Sentence Transformer(SBERT和Doc2Vec),以及用于分类的卷积神经网络(CNN)、随机森林和多层感知器。详细介绍了系统架构、为生产环境优化的实现策略(包括ONNX Runtime优化和并行处理),并评估了检测模型的性能和整体系统的负载能力。结果表明,该方法在检测各种威胁(包括SQL注入、OS命令注入和XSS攻击)方面具有很高的准确性,并能有效缓解DoS和SSRF攻击。这项研究为增强GraphQL API安全性提供了一个强大且适应性强的解决方案。

🔬 方法详解

问题定义:GraphQL的灵活性使其容易遭受恶意查询攻击,例如SQL注入、OS命令注入、XSS、DoS和SSRF等。传统API安全机制,如静态分析和WAF,无法充分理解GraphQL查询的上下文,难以有效防御这些攻击。现有的方法在处理复杂的、上下文相关的攻击时存在局限性,需要更智能的检测机制。

核心思路:该论文的核心思路是结合静态分析和机器学习技术,利用大型语言模型(LLM)理解GraphQL schema,使用Sentence Transformer提取查询的语义信息,并使用卷积神经网络(CNN)等模型进行恶意查询分类。通过这种多层次的方法,可以更准确地识别和防御各种类型的GraphQL攻击。

技术框架:该系统主要包含以下几个模块:1) GraphQL Schema解析器:使用LLM动态解析GraphQL schema。2) 查询Payload嵌入模块:使用Sentence Transformer(SBERT和Doc2Vec)将查询payload转换为向量表示,捕捉其语义信息。3) 恶意查询分类器:使用CNN、随机森林和多层感知器等机器学习模型,基于查询payload的向量表示进行恶意查询分类。4) ONNX Runtime优化:为了在生产环境中实现高性能,使用ONNX Runtime对模型进行优化。5) 并行处理:采用并行处理技术,提高系统的吞吐量和响应速度。

关键创新:该论文的关键创新在于将大型语言模型(LLM)应用于GraphQL安全领域,利用LLM理解GraphQL schema的语义信息,从而更好地进行恶意查询检测。此外,结合Sentence Transformer和CNN等技术,可以更准确地捕捉查询的上下文信息,提高检测的准确率。

关键设计:在Sentence Transformer的选择上,使用了SBERT和Doc2Vec两种模型,并进行了对比实验。在CNN的设计上,采用了多层卷积和池化操作,以提取查询payload的特征。在损失函数方面,使用了交叉熵损失函数,并采用Adam优化器进行训练。为了提高模型的泛化能力,使用了dropout和正则化等技术。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在检测SQL注入、OS命令注入和XSS攻击方面具有很高的准确性,并能有效缓解DoS和SSRF攻击。具体性能数据未知,但论文强调了其在各种威胁检测上的高准确性,以及对DoS和SSRF攻击的有效缓解。此外,论文还强调了ONNX Runtime优化和并行处理在提高系统性能方面的作用。

🎯 应用场景

该研究成果可应用于各种GraphQL API的安全防护,例如Web应用、移动应用和微服务架构。通过实时检测和阻止恶意查询,可以有效防止数据泄露、服务中断等安全事件,保障系统的稳定性和安全性。该方法具有很强的适应性,可以根据不同的GraphQL schema和攻击类型进行调整和优化,具有广阔的应用前景。

📄 摘要(原文)

GraphQL's flexibility, while beneficial for efficient data fetching, introduces unique security vulnerabilities that traditional API security mechanisms often fail to address. Malicious GraphQL queries can exploit the language's dynamic nature, leading to denial-of-service attacks, data exfiltration through injection, and other exploits. Existing solutions, such as static analysis, rate limiting, and general-purpose Web Application Firewalls, offer limited protection against sophisticated, context-aware attacks. This paper presents a novel, AI-driven approach for real-time detection of malicious GraphQL queries. Our method combines static analysis with machine learning techniques, including Large Language Models (LLMs) for dynamic schema-based configuration, Sentence Transformers (SBERT and Doc2Vec) for contextual embedding of query payloads, and Convolutional Neural Networks (CNNs), Random Forests, and Multilayer Perceptrons for classification. We detail the system architecture, implementation strategies optimized for production environments (including ONNX Runtime optimization and parallel processing), and evaluate the performance of our detection models and the overall system under load. Results demonstrate high accuracy in detecting various threats, including SQL injection, OS command injection, and XSS exploits, alongside effective mitigation of DoS and SSRF attempts. This research contributes a robust and adaptable solution for enhancing GraphQL API security.