ORACAL: A Robust and Explainable Multimodal Framework for Smart Contract Vulnerability Detection with Causal Graph Enrichment
作者: Tran Duong Minh Dai, Triet Huynh Minh Le, M. Ali Babar, Van-Hau Pham, Phan The Duy
分类: cs.LG, cs.CR
发布日期: 2026-03-30
备注: 26 pages
💡 一句话要点
ORACAL:一种鲁棒且可解释的智能合约漏洞检测多模态框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 智能合约漏洞检测 图神经网络 多模态学习 因果推理 可解释性 检索增强生成 大型语言模型
📋 核心要点
- 现有基于图神经网络(GNN)的智能合约漏洞检测方法难以充分捕捉控制流和数据依赖之间的相互作用,且缺乏深层语义理解。
- ORACAL框架通过整合控制流图、数据流图和调用图,并利用RAG和LLM增强子图,引入因果推理机制,从而提升漏洞检测的准确性和鲁棒性。
- 实验结果表明,ORACAL在多个数据集上均优于现有方法,并在可解释性、泛化能力和抗对抗攻击能力方面表现出色。
📝 摘要(中文)
本文提出了一种名为ORACAL的异构多模态图学习框架,用于智能合约漏洞检测。该框架集成了控制流图(CFG)、数据流图(DFG)和调用图(CG),并通过检索增强生成(RAG)和大型语言模型(LLM)选择性地增强关键子图,从而融入专家级的安全上下文。ORACAL采用因果注意力机制来区分真实的漏洞指标和虚假相关性。为了提高透明度,该框架使用PGExplainer生成子图级别的解释,识别漏洞触发路径。在大型数据集上的实验表明,ORACAL达到了最先进的性能,相比MANDO-HGT、MTVHunter、GNN-SC和SCVHunter,性能提升高达39.6个百分点,在主要基准测试中达到了91.28%的峰值Macro F1。ORACAL在分布外数据集上保持了强大的泛化能力,在CGT Weakness上达到91.8%,在DAppScan上达到77.1%。在可解释性评估中,PGExplainer针对手动标注的漏洞触发路径实现了32.51%的平均交并比(MIoU)。在对抗攻击下,ORACAL将性能下降限制在约2.35%的F1降幅,攻击成功率(ASR)仅为3%,优于ASR在10.91%至18.73%范围内的SCVHunter和MANDO-HGT。
🔬 方法详解
问题定义:智能合约漏洞检测旨在识别代码中的安全缺陷,防止恶意利用。现有基于图神经网络的方法,如同构图模型无法捕捉控制流和数据流的交互,异构图模型缺乏深层语义理解,易受对抗攻击。此外,黑盒模型缺乏可解释性,难以获得专业审计的信任。
核心思路:ORACAL的核心思路是构建一个异构多模态图学习框架,融合控制流、数据流和调用关系,并利用检索增强生成(RAG)和大型语言模型(LLM)注入专家级的安全知识,从而更准确地识别漏洞。通过因果注意力机制,区分真实漏洞指标和虚假相关性,提高模型的鲁棒性。
技术框架:ORACAL框架包含以下主要模块:1) 图构建模块,构建控制流图(CFG)、数据流图(DFG)和调用图(CG);2) 知识增强模块,利用RAG和LLM选择性地增强关键子图,注入安全上下文;3) 因果推理模块,采用因果注意力机制,区分真实漏洞指标和虚假相关性;4) 漏洞检测模块,使用图神经网络进行漏洞分类;5) 可解释性模块,利用PGExplainer生成子图级别的解释,识别漏洞触发路径。
关键创新:ORACAL的关键创新在于:1) 异构多模态图融合,综合利用控制流、数据流和调用关系;2) 检索增强生成(RAG)和大型语言模型(LLM)的集成,注入专家级的安全知识;3) 因果注意力机制,区分真实漏洞指标和虚假相关性;4) PGExplainer提供子图级别的可解释性。与现有方法相比,ORACAL更全面、更鲁棒、更可解释。
关键设计:ORACAL的关键设计包括:1) 使用特定领域的RAG和LLM,以确保注入的安全知识与智能合约漏洞检测相关;2) 设计因果注意力机制,以减少虚假相关性的影响;3) 使用PGExplainer生成子图级别的解释,提高模型的可解释性;4) 损失函数的设计,平衡漏洞检测的准确性和可解释性。
🖼️ 关键图片
📊 实验亮点
ORACAL在大型数据集上取得了显著的性能提升,Macro F1值高达91.28%,超过现有最先进方法39.6个百分点。在分布外数据集上,ORACAL也表现出强大的泛化能力,CGT Weakness上达到91.8%,DAppScan上达到77.1%。在对抗攻击下,ORACAL的攻击成功率仅为3%,远低于其他方法,显示出良好的鲁棒性。PGExplainer实现了32.51%的平均交并比(MIoU),证明了其可解释性。
🎯 应用场景
ORACAL可应用于智能合约的安全审计、漏洞预警和自动修复等领域。它可以帮助开发人员和安全专家更有效地识别和修复智能合约中的漏洞,从而提高区块链应用的安全性和可靠性,降低经济损失风险。该研究的成果有助于推动区块链技术的安全发展。
📄 摘要(原文)
Although Graph Neural Networks (GNNs) have shown promise for smart contract vulnerability detection, they still face significant limitations. Homogeneous graph models fail to capture the interplay between control flow and data dependencies, while heterogeneous graph approaches often lack deep semantic understanding, leaving them susceptible to adversarial attacks. Moreover, most black-box models fail to provide explainable evidence, hindering trust in professional audits. To address these challenges, we propose ORACAL (Observable RAG-enhanced Analysis with CausAL reasoning), a heterogeneous multimodal graph learning framework that integrates Control Flow Graph (CFG), Data Flow Graph (DFG), and Call Graph (CG). ORACAL selectively enriches critical subgraphs with expert-level security context from Retrieval-Augmented Generation (RAG) and Large Language Models (LLMs), and employs a causal attention mechanism to disentangle true vulnerability indicators from spurious correlations. For transparency, the framework adopts PGExplainer to generate subgraph-level explanations identifying vulnerability triggering paths. Experiments on large-scale datasets demonstrate that ORACAL achieves state-of-the-art performance, outperforming MANDO-HGT, MTVHunter, GNN-SC, and SCVHunter by up to 39.6 percentage points, with a peak Macro F1 of 91.28% on the primary benchmark. ORACAL maintains strong generalization on out-of-distribution datasets with 91.8% on CGT Weakness and 77.1% on DAppScan. In explainability evaluation, PGExplainer achieves 32.51% Mean Intersection over Union (MIoU) against manually annotated vulnerability triggering paths. Under adversarial attacks, ORACAL limits performance degradation to approximately 2.35% F1 decrease with an Attack Success Rate (ASR) of only 3%, surpassing SCVHunter and MANDO-HGT which exhibit ASRs ranging from 10.91% to 18.73%.