Towards Secure and Explainable Smart Contract Generation with Security-Aware Group Relative Policy Optimization

作者: Lei Yu, Jingyuan Zhang, Xin Wang, Jiajia Ma, Li Yang, Fengjun Zhang

分类: cs.CR, cs.AI, cs.SE

发布日期: 2025-09-12 (更新: 2025-10-12)

💡 一句话要点

提出SmartCoder-R1，通过安全感知强化学习提升智能合约生成安全性和可解释性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 智能合约生成 大型语言模型 安全漏洞 强化学习 可解释性 安全感知 策略优化

📋 核心要点

现有大型语言模型在智能合约生成中缺乏透明推理，导致生成的代码存在严重安全漏洞，易造成经济损失。
SmartCoder-R1通过持续预训练、长链思维监督微调和安全感知组相对策略优化，提升智能合约生成安全性和可解释性。
实验表明，SmartCoder-R1在多个关键指标上超越现有技术，FullRate指标比最强基线DeepSeek-R1相对提高了45.79%。

📝 摘要（中文）

智能合约自动化管理高价值资产，但漏洞可能导致灾难性的经济损失。大型语言模型(LLMs)在此问题上存在双重挑战：缺乏透明的推理过程，如同“黑盒”；生成代码存在严重的安全漏洞。为解决这些问题，我们提出了SmartCoder-R1（基于Qwen2.5-Coder-7B），一个用于安全且可解释的智能合约生成的新框架。它首先进行持续预训练(CPT)以专门化模型。然后，我们在7,998个专家验证的推理和代码样本上应用长链思维监督微调(L-CoT SFT)，以训练模型模仿人类安全分析。最后，为了直接缓解漏洞，我们采用安全感知组相对策略优化(S-GRPO)，这是一个强化学习阶段，通过优化编译成功、安全合规性和格式正确性的加权奖励信号来改进生成策略。在包含756个真实世界函数的基准测试中，与17个基线相比，SmartCoder-R1建立了新的技术水平，在五个关键指标上取得了最佳性能：ComPass为87.70%，VulRate为8.60%，SafeAval为80.16%，FuncRate为53.84%，FullRate为50.53%。这个FullRate比最强的基线DeepSeek-R1相对提高了45.79%。至关重要的是，其生成的推理在人工评估中也表现出色，在功能性(82.7%)、安全性(85.3%)和清晰度(90.7%)方面获得了高质量的评分。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在智能合约生成中存在的安全漏洞和缺乏可解释性的问题。现有方法生成的智能合约代码容易出现安全漏洞，且LLM的推理过程不透明，难以审计和验证。

核心思路：论文的核心思路是通过结合监督学习和强化学习，训练一个能够生成安全、可解释的智能合约代码的模型。具体来说，首先通过监督学习模仿人类专家的安全分析过程，然后通过强化学习优化生成策略，直接降低代码中的漏洞。

技术框架：SmartCoder-R1框架包含三个主要阶段： 1. 持续预训练 (CPT)：在Qwen2.5-Coder-7B模型基础上进行持续预训练，使其更适应智能合约代码的生成任务。 2. 长链思维监督微调 (L-CoT SFT)：使用专家验证的推理和代码样本，训练模型模仿人类的安全分析过程，生成包含推理过程的代码。 3. 安全感知组相对策略优化 (S-GRPO)：使用强化学习，根据编译成功、安全合规性和格式正确性等指标，优化模型的生成策略。

关键创新：论文的关键创新在于提出了安全感知组相对策略优化（S-GRPO）方法。S-GRPO通过强化学习直接优化智能合约的安全性，与传统的监督学习方法相比，能够更有效地降低代码中的漏洞。此外，L-CoT SFT 使得模型生成代码的同时，也输出了推理过程，增强了可解释性。

关键设计：S-GRPO的关键设计在于奖励函数的设计，奖励函数综合考虑了编译成功、安全合规性和格式正确性三个方面。具体来说，编译成功保证了代码的基本可用性，安全合规性通过静态分析工具检测代码中的漏洞，格式正确性则保证了代码的可读性。通过对这三个方面进行加权，S-GRPO能够有效地引导模型生成高质量的智能合约代码。具体的权重设置未知。

📊 实验亮点

SmartCoder-R1在包含756个真实世界函数的基准测试中，与17个基线模型相比，在五个关键指标上取得了最佳性能。其中，FullRate指标达到了50.53%，比最强的基线DeepSeek-R1相对提高了45.79%。此外，人工评估结果表明，SmartCoder-R1生成的代码在功能性、安全性和清晰度方面均获得了高质量的评分。

🎯 应用场景

该研究成果可应用于智能合约自动生成、安全审计和漏洞修复等领域。通过提高智能合约的安全性和可解释性，降低智能合约开发和部署的风险，促进区块链技术的广泛应用。未来，该技术有望应用于更复杂的智能合约场景，并与其他安全工具集成，构建更完善的智能合约安全生态。

📄 摘要（原文）

Smart contracts automate the management of high-value assets, where vulnerabilities can lead to catastrophic financial losses. This challenge is amplified in Large Language Models (LLMs) by two interconnected failures: they operate as unauditable "black boxes" lacking a transparent reasoning process, and consequently, generate code riddled with critical security vulnerabilities. To address both issues, we propose SmartCoder-R1 (based on Qwen2.5-Coder-7B), a novel framework for secure and explainable smart contract generation. It begins with Continual Pre-training (CPT) to specialize the model. We then apply Long Chain-of-Thought Supervised Fine-Tuning (L-CoT SFT) on 7,998 expert-validated reasoning-and-code samples to train the model to emulate human security analysis. Finally, to directly mitigate vulnerabilities, we employ Security-Aware Group Relative Policy Optimization (S-GRPO), a reinforcement learning phase that refines the generation policy by optimizing a weighted reward signal for compilation success, security compliance, and format correctness. Evaluated against 17 baselines on a benchmark of 756 real-world functions, SmartCoder-R1 establishes a new state of the art, achieving top performance across five key metrics: a ComPass of 87.70%, a VulRate of 8.60%, a SafeAval of 80.16%, a FuncRate of 53.84%, and a FullRate of 50.53%. This FullRate marks a 45.79% relative improvement over the strongest baseline, DeepSeek-R1. Crucially, its generated reasoning also excels in human evaluations, achieving high-quality ratings for Functionality (82.7%), Security (85.3%), and Clarity (90.7%).

Towards Secure and Explainable Smart Contract Generation with Security-Aware Group Relative Policy Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册