Retrieval Augmented Generation Based LLM Evaluation For Protocol State Machine Inference With Chain-of-Thought Reasoning

📄 arXiv: 2502.15727v2 📥 PDF

作者: Youssef Maklad, Fares Wael, Wael Elsersy, Ali Hamdi

分类: cs.NI, cs.AI, cs.CR, cs.IR

发布日期: 2025-01-30 (更新: 2025-06-27)

备注: Minor modifications in sections: abstract, introduction, background problem formulation, and conclusion. (Typos and Clarifications)


💡 一句话要点

提出基于RAG的LLM评估方法,用于协议状态机推理,提升协议模糊测试效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 协议模糊测试 大型语言模型 检索增强生成 思维链 有限状态机

📋 核心要点

  1. 现有协议模糊测试方法在探索协议状态空间时面临挑战,种子数据质量不高限制了测试效率。
  2. 利用RAG和COT提示,LLM可以动态参考RFC文档,生成高质量的种子数据,引导模糊测试更有效地探索协议状态。
  3. 实验结果表明,该方法在BLEU、ROUGE和WER指标上均优于基线模型,验证了其在协议模糊测试中的潜力。

📝 摘要(中文)

本文提出了一种新颖的方法,用于评估基于RAG的Agentic大型语言模型(LLM)架构在网络数据包种子生成和丰富方面的效率。该方法通过思维链(COT)提示技术增强,侧重于提高种子的结构质量,从而引导协议模糊测试框架广泛探索协议状态空间。我们的方法利用RAG和文本嵌入,动态地参考请求评论(RFC)文档知识库,以回答有关协议有限状态机(FSM)的查询,然后迭代地推理检索到的知识,以进行输出细化和适当的种子放置。然后,我们通过将生成的包与真实包进行比较,基于BLEU、ROUGE和词错误率(WER)等指标评估Agent输出的响应结构质量。实验表明,与基线模型相比,BLEU、ROUGE和WER分别显著提高了18.19%、14.81%和23.45%。这些结果证实了该方法的潜力,可以改进基于LLM的协议模糊测试框架,从而识别隐藏的漏洞。

🔬 方法详解

问题定义:协议模糊测试旨在发现软件中的安全漏洞,而高质量的种子数据是有效模糊测试的关键。现有方法生成的种子数据结构质量不高,导致模糊测试框架难以充分探索协议状态空间,从而降低了漏洞发现的效率。

核心思路:论文的核心思路是利用RAG(Retrieval-Augmented Generation)增强的LLM,结合COT(Chain-of-Thought)提示,动态地从RFC文档中检索相关知识,并进行迭代推理,从而生成结构质量更高的种子数据。这种方法旨在引导模糊测试框架更有效地探索协议状态空间。

技术框架:该方法包含以下主要模块:1) 查询生成:根据协议状态机的当前状态生成查询;2) RAG检索:使用文本嵌入技术从RFC文档知识库中检索相关信息;3) COT推理:LLM基于检索到的信息进行逐步推理,生成种子数据;4) 评估:使用BLEU、ROUGE和WER等指标评估生成种子数据的质量。整个流程迭代进行,不断优化种子数据的结构。

关键创新:该方法的关键创新在于将RAG和COT提示相结合,用于协议模糊测试的种子数据生成。与传统方法相比,该方法能够动态地利用外部知识,并进行更深入的推理,从而生成更符合协议规范、结构更合理的种子数据。

关键设计:论文中使用了文本嵌入技术来表示RFC文档和查询,以便进行高效的检索。COT提示的设计旨在引导LLM进行逐步推理,避免生成不符合协议规范的种子数据。评估指标BLEU、ROUGE和WER用于量化生成种子数据的质量,并指导模型的优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与基线模型相比,该方法在BLEU、ROUGE和WER指标上分别取得了显著的提升,最高提升幅度分别为18.19%、14.81%和23.45%。这些数据表明,基于RAG的LLM评估方法能够有效提高种子数据的结构质量,从而提升协议模糊测试的效率。

🎯 应用场景

该研究成果可应用于网络安全领域,提升协议模糊测试的效率和漏洞发现能力。通过自动生成高质量的种子数据,可以减少人工干预,降低模糊测试的成本。此外,该方法还可以应用于其他需要结构化数据生成的场景,例如代码生成、文档生成等。

📄 摘要(原文)

This paper presents a novel approach to evaluate the efficiency of a RAG-based agentic Large Language Model (LLM) architecture for network packet seed generation and enrichment. Enhanced by chain-of-thought (COT) prompting techniques, the proposed approach focuses on the improvement of the seeds' structural quality in order to guide protocol fuzzing frameworks through a wide exploration of the protocol state space. Our method leverages RAG and text embeddings to dynamically reference to the Request For Comments (RFC) documents knowledge base for answering queries regarding the protocol's Finite State Machine (FSM), then iteratively reasons through the retrieved knowledge, for output refinement and proper seed placement. We then evaluate the response structure quality of the agent's output, based on metrics as BLEU, ROUGE, and Word Error Rate (WER) by comparing the generated packets against the ground-truth packets. Our experiments demonstrate significant improvements of up to 18.19%, 14.81%, and 23.45% in BLEU, ROUGE, and WER, respectively, over baseline models. These results confirm the potential of such approach, improving LLM-based protocol fuzzing frameworks for the identification of hidden vulnerabilities.