LLM4CodeRE: Generative AI for Code Decompilation Analysis and Reverse Engineering

📄 arXiv: 2604.06095v1 📥 PDF

作者: Hamed Jelodar, Samita Bai, Tochukwu Emmanuel Nwankwo, Parisa Hamedi, Mohammad Meymani, Roozbeh Razavi-Far, Ali A. Ghorbani

分类: cs.CR, cs.AI

发布日期: 2026-04-07


💡 一句话要点

LLM4CodeRE:用于代码逆向工程的双向生成式AI框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码反编译 逆向工程 大型语言模型 恶意软件分析 领域自适应 多适配器 Seq2Seq

📋 核心要点

  1. 恶意软件逆向工程中,代码反编译分析面临混淆技术的挑战,现有方法缺乏对恶意软件的针对性优化。
  2. LLM4CodeRE提出一种领域自适应的LLM框架,支持汇编与源代码的双向转换,提升逆向工程效率。
  3. 通过多适配器和Seq2Seq统一微调策略,LLM4CodeRE在实验中超越现有工具和通用模型,实现更好的泛化能力。

📝 摘要(中文)

代码反编译分析是恶意软件逆向工程中一项基础但极具挑战性的任务,尤其是在普遍使用复杂混淆技术的情况下。尽管最近的大型语言模型(LLM)在将低级表示转换为高级源代码方面显示出潜力,但大多数现有方法依赖于通用代码预训练,并且缺乏对恶意软件的适应性。我们提出了LLM4CodeRE,一个领域自适应的LLM框架,用于双向代码逆向工程,支持统一模型内的汇编到源代码的反编译和源代码到汇编的翻译。为了实现有效的任务适应,我们引入了两种互补的微调策略:(i)一种用于任务特定语法和语义对齐的多适配器方法,以及(ii)一种使用任务条件前缀来强制执行端到端生成约束的Seq2Seq统一方法。实验结果表明,LLM4CodeRE优于现有的反编译工具和通用代码模型,实现了强大的双向泛化。

🔬 方法详解

问题定义:代码反编译分析在恶意软件逆向工程中至关重要,但现有方法难以有效应对代码混淆,且通用代码预训练模型缺乏对恶意软件的针对性优化,导致反编译效果不佳。现有工具在处理复杂混淆代码时,往往难以生成可读性高、语义准确的源代码。

核心思路:LLM4CodeRE的核心在于利用领域自适应的大型语言模型,通过针对性的微调策略,使模型能够更好地理解和生成恶意软件相关的代码。通过双向转换能力,实现汇编代码到源代码以及源代码到汇编代码的互相转换,从而辅助逆向工程师理解代码逻辑。

技术框架:LLM4CodeRE采用基于Transformer的Seq2Seq架构,整体流程包括:数据预处理、模型初始化、多适配器微调、Seq2Seq统一微调和推理。数据预处理阶段对汇编代码和源代码进行清洗和格式化。模型初始化阶段加载预训练的LLM权重。多适配器微调和Seq2Seq统一微调是核心,用于任务特定优化。推理阶段,模型根据输入生成目标代码。

关键创新:LLM4CodeRE的关键创新在于其领域自适应的微调策略。多适配器方法针对不同任务(汇编到源代码,源代码到汇编)使用不同的适配器模块,实现任务特定的语法和语义对齐。Seq2Seq统一方法则通过任务条件前缀,强制模型生成符合任务约束的代码,从而提高生成质量。

关键设计:多适配器微调中,每个任务对应一个独立的适配器模块,这些模块与预训练LLM的Transformer层连接,只微调适配器参数,保持LLM主体参数不变。Seq2Seq统一微调中,任务条件前缀被添加到输入序列中,例如“asm2src:”或“src2asm:”,引导模型生成对应任务的代码。损失函数采用标准的交叉熵损失,优化目标是最小化生成代码与目标代码之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM4CodeRE在汇编到源代码的反编译和源代码到汇编的翻译任务中,均优于现有的反编译工具和通用代码模型。具体性能提升幅度未知,但论文强调了其强大的双向泛化能力和对恶意软件的适应性。

🎯 应用场景

LLM4CodeRE可应用于恶意软件分析、漏洞挖掘、软件安全审计等领域。通过自动化的代码反编译和转换,可以加速安全研究人员对恶意代码的理解,提高漏洞分析的效率,并辅助进行软件安全评估。该研究有助于提升整体网络安全防御能力。

📄 摘要(原文)

Code decompilation analysis is a fundamental yet challenging task in malware reverse engineering, particularly due to the pervasive use of sophisticated obfuscation techniques. Although recent large language models (LLMs) have shown promise in translating low-level representations into high-level source code, most existing approaches rely on generic code pretraining and lack adaptation to malicious software. We propose LLM4CodeRE, a domain-adaptive LLM framework for bidirectional code reverse engineering that supports both assembly-to-source decompilation and source-to-assembly translation within a unified model. To enable effective task adaptation, we introduce two complementary fine-tuning strategies: (i) a Multi-Adapter approach for task-specific syntactic and semantic alignment, and (ii) a Seq2Seq Unified approach using task-conditioned prefixes to enforce end-to-end generation constraints. Experimental results demonstrate that LLM4CodeRE outperforms existing decompilation tools and general-purpose code models, achieving robust bidirectional generalization.