ASMA-Tune: Unlocking LLMs' Assembly Code Comprehension via Structural-Semantic Instruction Tuning

作者: Xinyi Wang, Jiashui Wang, Jinbo Su, Ke Wang, Peng Chen, Yanming Liu, Long Liu, Xiang Li, Yangdong Wang, Qiyuan Chen, Rongze Chen, Chunfu Jia

分类: cs.SE, cs.AI

发布日期: 2025-03-14 (更新: 2025-05-22)

备注: 9 pages, multiple figures

💡 一句话要点

ASMA-Tune：通过结构-语义指令调优解锁大语言模型对汇编代码的理解能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 汇编代码理解 大语言模型 指令调优 结构语义 逆向工程 二进制分析 代码生成

📋 核心要点

汇编代码理解因其低信息密度和缺乏结构化语法而极具挑战，现有方法难以有效处理。
ASMA-Tune通过汇编编码器提取结构特征，并使用投影模块连接语义空间，结合指令调优的LLM，实现汇编代码的理解。
实验表明，ASMA-Tune在汇编理解任务上超越GPT-4-Turbo，Recall@1提升39.7%，MRR提升17.8%，并在多个LLM上表现出一致的性能提升。

📝 摘要（中文）

汇编代码分析和理解在逆向工程等应用中至关重要，但由于信息密度低和缺乏明确的语法结构而面临巨大挑战。传统的掩码语言建模（MLM）方法没有明确关注自然语言交互，而新兴的以解码器为中心的大语言模型（LLM）在二进制分析中表现出初步的成功，但对于整体理解仍未得到充分探索。我们提出了汇编增强调优（Assembly Augmented Tuning），这是一个端到端的结构-语义指令调优框架，通过投影模块将编码器架构与基于解码器的LLM协同作用，其中汇编编码器提取硬件级结构特征，投影模块桥接表示与语义空间，指令调优的LLM保留自然语言能力。实验结果表明了三个关键优势：（1）在汇编理解方面实现了最先进的性能，Recall@1提高了+39.7%，MRR提高了+17.8%（超过GPT-4-Turbo）；（2）在基础模型（Qwen2.5-Coder、Deepseek-Coder和CodeLlama变体）上实现了持续的增强（Recall@1提高了24.6-107.4%，MRR提高了15.2-106.3%）；（3）具有卓越的指令遵循能力（提高了41.5%-118%），同时控制了代码生成退化（各种架构下降了-8.9%至-35%）。

🔬 方法详解

问题定义：论文旨在解决大语言模型（LLM）在汇编代码理解方面的不足。现有方法，如传统的掩码语言模型（MLM），无法有效捕捉汇编代码的结构和语义信息，且缺乏自然语言交互能力。即使是新兴的LLM，在汇编代码理解方面也存在很大的提升空间，尤其是在整体理解方面。

核心思路：论文的核心思路是利用汇编编码器提取硬件级别的结构特征，并通过一个投影模块将这些特征映射到LLM的语义空间中。通过指令调优，使LLM能够更好地理解汇编代码，并保留其原有的自然语言处理能力。这种方法结合了编码器和解码器的优势，从而实现更有效的汇编代码理解。

技术框架：整体框架包含三个主要模块：汇编编码器、投影模块和指令调优的LLM。汇编编码器负责提取汇编代码的结构特征；投影模块将编码器的输出映射到LLM的语义空间；指令调优的LLM负责理解汇编代码并生成相应的自然语言描述或执行相应的任务。整个流程是端到端的，可以进行联合训练。

关键创新：最重要的技术创新点在于结构-语义指令调优框架，它将汇编代码的结构信息和LLM的语义理解能力结合起来。与现有方法相比，ASMA-Tune能够更有效地捕捉汇编代码的本质特征，并利用LLM的强大生成能力来完成各种汇编代码理解任务。

关键设计：论文中涉及的关键设计包括汇编编码器的选择（具体选择未明确说明，但强调了提取硬件级结构特征的能力），投影模块的结构（具体结构未知，但需要能够有效桥接不同表示空间），以及指令调优数据集的设计（需要包含丰富的汇编代码理解任务，并与自然语言描述相结合）。损失函数的设计也至关重要，需要平衡汇编代码理解的准确性和自然语言生成的流畅性。

🖼️ 关键图片

📊 实验亮点

ASMA-Tune在汇编代码理解任务上取得了显著的性能提升，相较于GPT-4-Turbo，Recall@1提升了39.7%，MRR提升了17.8%。此外，该方法在Qwen2.5-Coder、Deepseek-Coder和CodeLlama等多个LLM上均表现出一致的性能提升，Recall@1提升范围为24.6%-107.4%，MRR提升范围为15.2%-106.3%。同时，指令遵循能力也得到了显著提升（41.5%-118%）。

🎯 应用场景

该研究成果可广泛应用于逆向工程、恶意代码分析、漏洞挖掘、软件安全等领域。通过提升LLM对汇编代码的理解能力，可以自动化分析二进制文件，识别潜在的安全风险，并加速软件漏洞的修复过程。未来，该技术有望应用于自动化代码审计和智能安全分析平台。

📄 摘要（原文）

Assembly code analysis and comprehension play critical roles in applications like reverse engineering, yet they face substantial challenges due to low information density and a lack of explicit syntactic structures. While traditional masked language modeling (MLM) approaches do not explicitly focus on natural language interaction, emerging decoder-focused large language models (LLMs) demonstrate partial success in binary analysis yet remain underexplored for holistic comprehension. We present Assembly Augmented Tuning, an end-to-end structural-semantic instruction tuning framework that synergizes encoder architecture with decoder-based LLMs through a projector module, where the assembly encoder extracts hardware-level structural features, the projector bridges representations with the semantic space, and the instruction-tuned LLM preserves natural language capabilities. Experimental results demonstrate three key advantages: (1) State-of-the-art performance in assembly comprehension with +39.7% Recall@1 and +17.8% MRR improvements over GPT-4-Turbo, (2) Consistent enhancements across base models (24.6-107.4% Recall@1 and 15.2-106.3% MRR on Qwen2.5-Coder, Deepseek-Coder and CodeLlama variants), and (3) Superior instruction-following capabilities (41.5%-118% improvements) with controlled code generation degradation (-8.9% to -35% across architectures).

ASMA-Tune: Unlocking LLMs' Assembly Code Comprehension via Structural-Semantic Instruction Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理