Improving LLM Reasoning for Vulnerability Detection via Group Relative Policy Optimization

作者: Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino

分类: cs.CR, cs.AI, cs.CL

发布日期: 2025-07-03

备注: Under Review

💡 一句话要点

提出基于GRPO的LLM微调方法，提升软件漏洞检测的推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 漏洞检测 强化学习 策略优化 软件安全

📋 核心要点

现有LLM在漏洞检测中存在偏差，对某些漏洞类型过度预测，而对其他类型检测不足，影响了检测的准确性和全面性。
论文提出使用Group Relative Policy Optimization (GRPO) 方法，通过规则化的奖励机制引导LLM学习，从而改善其漏洞检测行为。
实验结果表明，GRPO能够提升LLM在漏洞检测中的泛化能力、推理能力和整体性能，优于标准的监督微调方法。

📝 摘要（中文）

本文致力于提升大型语言模型（LLM）在软件漏洞检测中的推理能力和训练动态。研究指出，现有LLM在漏洞检测中存在过度预测某些类型漏洞而忽略其他类型漏洞的倾向。为了解决这一问题，本文探索了Group Relative Policy Optimization (GRPO) 方法，通过结构化的、基于规则的奖励来引导LLM的行为。通过重新定义GRPO的优势函数和奖励信号，并利用BigVul、DiverseVul和CleanVul等数据集的标注，实现了GRPO在漏洞检测任务中的应用。实验结果表明，该方法能够有效提升LLM在软件漏洞检测中的泛化能力、推理能力和性能，并为基于强化学习的训练在提升LLM性能和推理能力方面的潜力提供了有价值的见解。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在软件漏洞检测任务中存在的推理偏差问题。现有LLM在漏洞检测时，容易过度预测某些类型的漏洞，而忽略其他类型的漏洞，导致检测结果不均衡，影响了漏洞检测的准确性和全面性。这种偏差源于训练数据分布不均以及LLM自身固有的偏见。

核心思路：论文的核心思路是利用Group Relative Policy Optimization (GRPO) 算法，通过强化学习的方式微调LLM，使其能够更准确、更均衡地检测不同类型的漏洞。GRPO通过设计合理的奖励函数，引导LLM学习更有效的漏洞检测策略，从而克服现有LLM的推理偏差。

技术框架：整体框架包括以下几个主要步骤：1) 数据准备：使用BigVul、DiverseVul和CleanVul等数据集，构建漏洞检测任务的训练数据。2) 模型初始化：使用预训练的LLM作为基础模型。3) GRPO训练：使用GRPO算法微调LLM，其中关键在于设计合适的奖励函数和优势函数。4) 模型评估：在测试集上评估微调后的LLM的性能，包括准确率、召回率和F1值等指标。

关键创新：论文的关键创新在于将GRPO算法应用于软件漏洞检测任务，并针对该任务重新定义了GRPO的优势函数和奖励信号。传统的GRPO通常应用于离散动作空间，而漏洞检测任务需要LLM生成文本，因此需要将GRPO扩展到连续动作空间。此外，论文还设计了基于规则的奖励函数，以鼓励LLM检测不同类型的漏洞，从而克服推理偏差。

关键设计：论文的关键设计包括：1) 优势函数的设计：优势函数用于评估LLM在特定状态下采取某个动作的优劣程度。论文根据漏洞检测任务的特点，设计了基于规则的优势函数，以鼓励LLM检测不同类型的漏洞。2) 奖励函数的设计：奖励函数用于指导LLM的学习方向。论文设计了基于规则的奖励函数，根据LLM的检测结果，给予不同的奖励，以鼓励LLM更准确、更均衡地检测漏洞。3) 训练参数的设置：论文对GRPO的训练参数进行了仔细的调整，以确保训练过程的稳定性和收敛性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于GRPO微调的LLM在漏洞检测任务中取得了显著的性能提升。相较于标准的监督微调方法（SFT），该方法在多个数据集上均表现出更高的准确率、召回率和F1值。尤其是在检测某些特定类型的漏洞时，GRPO能够显著降低LLM的推理偏差，提高检测的均衡性。

🎯 应用场景

该研究成果可应用于AI驱动的软件安全工具，提升漏洞检测的自动化程度和准确性，降低人工审核成本。通过更精准的漏洞定位，可以帮助开发者及时修复安全隐患，提高软件的整体安全性。未来，该方法有望扩展到其他安全领域，如恶意代码分析、网络入侵检测等。

📄 摘要（原文）

Improving and understanding the training dynamics and reasoning of Large Language Models (LLMs) has become essential for their deployment in AI-based security tools, such as software vulnerability detection. In this work, we present an extensive study aimed at advancing recent RL-based finetuning techniques for LLMs in the context of vulnerability detection. We start by highlighting key limitations of commonly adopted LLMs, such as their tendency to over-predict certain types of vulnerabilities while failing to detect others. To address this challenge, we explore the use of Group Relative Policy Optimization (GRPO), a recent policy-gradient method, for guiding LLM behavior through structured, rule-based rewards. We enable its application to the vulnerability detection task by redefining its advantage functions and reward signals using annotations from widely used datasets in the field, including BigVul, DiverseVul, and CleanVul. The proposed methodology enables an extensive set of experiments, addressing multiple research questions regarding the impact of GRPO on generalization, reasoning capabilities, and performance improvements over standard supervised finetuning (SFT). Our findings offer valuable insights into the potential of RL-based training to enhance both the performance and reasoning abilities of LLMs in the context of software vulnerability detection.

Improving LLM Reasoning for Vulnerability Detection via Group Relative Policy Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理