LCC-LLM: Leveraging Code-Centric Large Language Models for Malware Attribution
作者: Christopher G. Pedraza Pohlenz, Hassan Jalil Hadi, Ali Hassan, Ali Shoker
分类: cs.CR, cs.AI
发布日期: 2026-05-07
💡 一句话要点
提出LCC-LLM框架与LCCD数据集,通过代码中心化检索增强与多任务推理实现精准恶意软件归因
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 恶意软件分析 检索增强生成 代码大模型 逆向工程 威胁情报 指令微调 多任务学习
📋 核心要点
- 现有LLM恶意软件分析缺乏代码级深度支撑,难以准确识别恶意代码段及漏洞,导致归因分析的可靠性受限。
- 提出LCC-LLM框架,构建包含3.4万个PE样本的LCCD数据集,并结合LangGraph编排的七层RAG流水线与多源知识库。
- 实验表明,该方法在43项分析任务中表现稳健,在真实案例中实现100%结构化分析通过率,有效提升了分析决策的准确性。
📝 摘要(中文)
大语言模型(LLM)在恶意软件分析中的应用日益广泛,但现有方法受限于缺乏代码级支撑及对恶意/漏洞代码段识别的不足。为此,本研究提出了LCC-LLM,这是一个以代码为中心的基准数据集及基于证据的恶意软件归因推理框架。LCCD数据集包含约3.4万个PE样本,通过大规模逆向工程流水线处理,涵盖反编译C代码、汇编代码、控制流/函数调用图(CFG/FCG)、十六进制数据及结构化元数据。LCC-LLM框架集成了LangGraph编排的静态分析与多源网络安全知识,采用七层检索增强生成(RAG)流水线、CoVe(思维链验证)IoC验证机制及多维质量门控。通过对DeepSeek-R1-Distill-Qwen-14B和Qwen3-Coder-30B-A3B进行课程学习微调,该框架在43项恶意软件分析任务中表现优异,并在真实世界案例中实现了100%的结构化分析通过率,显著提升了LLM辅助恶意软件归因的可靠性与实用性。
🔬 方法详解
问题定义:当前恶意软件分析主要依赖LLM的通用知识,缺乏对反编译代码、控制流图等底层二进制特征的深度理解,导致在恶意软件归因和漏洞定位任务中存在“幻觉”及证据不足的问题。
核心思路:引入“代码中心化”理念,通过构建多模态特征数据集(LCCD),将静态分析工具链的输出与LLM的推理能力深度融合,利用检索增强生成(RAG)和多阶段验证机制确保推理过程的证据可追溯性。
技术框架:系统包含数据预处理流水线(逆向工程)、LangGraph编排的七层RAG检索模块、CoVe验证机制以及多维质量门控。模型采用QLoRA技术对DeepSeek-R1-Distill等模型进行课程学习微调,以适应复杂的安全分析任务。
关键创新:首次将大规模逆向工程产物(CFG/FCG、API证据等)结构化整合进LLM推理流程;引入七层RAG流水线与CoVe验证,实现了从原始二进制数据到高层分析报告的证据链闭环。
关键设计:采用课程学习(Curriculum Learning)策略优化指令微调过程;引入多维质量门控(Quality Gate)对生成内容进行事实性校验;利用QLoRA在有限算力下高效适配大规模代码模型,确保模型对恶意软件特征的敏感度。
📊 实验亮点
在43项恶意软件分析任务中,模型平均语义相似度达到0.634,在结构化报告生成、IoC提取及恶意软件分类任务中表现卓越。在MalwareBazaar真实样本测试中,该框架实现了10/10的结构化分析通过率,能够自动生成符合MITRE ATT&CK框架的映射及详细的检测指导,证明了其在复杂安全场景下的高可靠性。
🎯 应用场景
该研究适用于网络安全运营中心(SOC)的自动化威胁情报分析、恶意软件逆向工程辅助、漏洞挖掘及威胁狩猎。通过提供可解释的证据链,该框架能显著降低安全分析师的工作负载,提升对未知恶意软件家族的归因效率与准确性,在企业级安全防御体系中具有极高的应用价值。
📄 摘要(原文)
LLMs are increasingly explored for malware analysis; however, current LLM-based malware attribution remains limited by unsupported indicators and insufficient code-level grounding for identifying malicious and vulnerable code segments. To address these limitations, this research introduces LCC-LLM, a code-centric benchmark dataset and evidence-grounded framework for malware attribution and multi-task static malware analysis. The proposed LCCD dataset contains approximately 34K PE samples processed through a large-scale reverse-engineering pipeline and represented using decompiled C code, assembly code, CFG/FCG artifacts, hexadecimal data, PE metadata, suspicious API evidence, and structural features. Beyond dataset construction, LCC-LLM integrates LangGraph-orchestrated static analysis with multi-source cybersecurity knowledge to support evidence-grounded malware reasoning. The framework employs a seven-layer retrieval-augmented generation pipeline, CoVe for IoC validation, and a multi-dimensional quality gate to improve factual reliability and analyst-oriented decision support. Curriculum-ordered instruction data is used to fine-tune DeepSeek-R1-Distill-Qwen-14B and Qwen3-Coder-30B-A3B using QLoRA. Evaluation across 43 malware-analysis task types achieves an average semantic similarity of 0.634, with the highest task-level performance in structured report generation, IoC extraction, vulnerability assessment, malware configuration extraction, and malware class detection. In a real-world case study using MalwareBazaar samples, the grounded pipeline achieves a 10/10 structured analysis pass rate, producing CFG/FCG evidence, MITRE ATT&CK mappings, detection guidance, and analyst-ready reports. These results show that code-centric representations, retrieval grounding, and verification-guided reasoning improve the reliability and operational usefulness of LLM-assisted malware attribution.