ASMA-Tune: Unlocking LLMs' Assembly Code Comprehension via Structural-Semantic Instruction Tuning
作者: Xinyi Wang, Jiashui Wang, Jinbo Su, Ke Wang, Peng Chen, Yanming Liu, Long Liu, Xiang Li, Yangdong Wang, Qiyuan Chen, Rongze Chen, Chunfu Jia
分类: cs.SE, cs.AI
发布日期: 2025-03-14 (更新: 2025-05-22)
备注: 9 pages, multiple figures
💡 一句话要点
ASMA-Tune:通过结构-语义指令调优解锁大语言模型对汇编代码的理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 汇编代码理解 大语言模型 指令调优 结构语义 逆向工程 二进制分析 代码生成
📋 核心要点
- 汇编代码理解因其低信息密度和缺乏结构化语法而极具挑战,现有方法难以有效处理。
- ASMA-Tune通过汇编编码器提取结构特征,并使用投影模块连接语义空间,结合指令调优的LLM,实现汇编代码的理解。
- 实验表明,ASMA-Tune在汇编理解任务上超越GPT-4-Turbo,Recall@1提升39.7%,MRR提升17.8%,并在多个LLM上表现出一致的性能提升。
📝 摘要(中文)
汇编代码分析和理解在逆向工程等应用中至关重要,但由于信息密度低和缺乏明确的语法结构而面临巨大挑战。传统的掩码语言建模(MLM)方法没有明确关注自然语言交互,而新兴的以解码器为中心的大语言模型(LLM)在二进制分析中表现出初步的成功,但对于整体理解仍未得到充分探索。我们提出了汇编增强调优(Assembly Augmented Tuning),这是一个端到端的结构-语义指令调优框架,通过投影模块将编码器架构与基于解码器的LLM协同作用,其中汇编编码器提取硬件级结构特征,投影模块桥接表示与语义空间,指令调优的LLM保留自然语言能力。实验结果表明了三个关键优势:(1)在汇编理解方面实现了最先进的性能,Recall@1提高了+39.7%,MRR提高了+17.8%(超过GPT-4-Turbo);(2)在基础模型(Qwen2.5-Coder、Deepseek-Coder和CodeLlama变体)上实现了持续的增强(Recall@1提高了24.6-107.4%,MRR提高了15.2-106.3%);(3)具有卓越的指令遵循能力(提高了41.5%-118%),同时控制了代码生成退化(各种架构下降了-8.9%至-35%)。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLM)在汇编代码理解方面的不足。现有方法,如传统的掩码语言模型(MLM),无法有效捕捉汇编代码的结构和语义信息,且缺乏自然语言交互能力。即使是新兴的LLM,在汇编代码理解方面也存在很大的提升空间,尤其是在整体理解方面。
核心思路:论文的核心思路是利用汇编编码器提取硬件级别的结构特征,并通过一个投影模块将这些特征映射到LLM的语义空间中。通过指令调优,使LLM能够更好地理解汇编代码,并保留其原有的自然语言处理能力。这种方法结合了编码器和解码器的优势,从而实现更有效的汇编代码理解。
技术框架:整体框架包含三个主要模块:汇编编码器、投影模块和指令调优的LLM。汇编编码器负责提取汇编代码的结构特征;投影模块将编码器的输出映射到LLM的语义空间;指令调优的LLM负责理解汇编代码并生成相应的自然语言描述或执行相应的任务。整个流程是端到端的,可以进行联合训练。
关键创新:最重要的技术创新点在于结构-语义指令调优框架,它将汇编代码的结构信息和LLM的语义理解能力结合起来。与现有方法相比,ASMA-Tune能够更有效地捕捉汇编代码的本质特征,并利用LLM的强大生成能力来完成各种汇编代码理解任务。
关键设计:论文中涉及的关键设计包括汇编编码器的选择(具体选择未明确说明,但强调了提取硬件级结构特征的能力),投影模块的结构(具体结构未知,但需要能够有效桥接不同表示空间),以及指令调优数据集的设计(需要包含丰富的汇编代码理解任务,并与自然语言描述相结合)。损失函数的设计也至关重要,需要平衡汇编代码理解的准确性和自然语言生成的流畅性。
🖼️ 关键图片
📊 实验亮点
ASMA-Tune在汇编代码理解任务上取得了显著的性能提升,相较于GPT-4-Turbo,Recall@1提升了39.7%,MRR提升了17.8%。此外,该方法在Qwen2.5-Coder、Deepseek-Coder和CodeLlama等多个LLM上均表现出一致的性能提升,Recall@1提升范围为24.6%-107.4%,MRR提升范围为15.2%-106.3%。同时,指令遵循能力也得到了显著提升(41.5%-118%)。
🎯 应用场景
该研究成果可广泛应用于逆向工程、恶意代码分析、漏洞挖掘、软件安全等领域。通过提升LLM对汇编代码的理解能力,可以自动化分析二进制文件,识别潜在的安全风险,并加速软件漏洞的修复过程。未来,该技术有望应用于自动化代码审计和智能安全分析平台。
📄 摘要(原文)
Assembly code analysis and comprehension play critical roles in applications like reverse engineering, yet they face substantial challenges due to low information density and a lack of explicit syntactic structures. While traditional masked language modeling (MLM) approaches do not explicitly focus on natural language interaction, emerging decoder-focused large language models (LLMs) demonstrate partial success in binary analysis yet remain underexplored for holistic comprehension. We present Assembly Augmented Tuning, an end-to-end structural-semantic instruction tuning framework that synergizes encoder architecture with decoder-based LLMs through a projector module, where the assembly encoder extracts hardware-level structural features, the projector bridges representations with the semantic space, and the instruction-tuned LLM preserves natural language capabilities. Experimental results demonstrate three key advantages: (1) State-of-the-art performance in assembly comprehension with +39.7% Recall@1 and +17.8% MRR improvements over GPT-4-Turbo, (2) Consistent enhancements across base models (24.6-107.4% Recall@1 and 15.2-106.3% MRR on Qwen2.5-Coder, Deepseek-Coder and CodeLlama variants), and (3) Superior instruction-following capabilities (41.5%-118% improvements) with controlled code generation degradation (-8.9% to -35% across architectures).