REBENCH: A Procedural, Fair-by-Construction Benchmark for LLMs on Stripped-Binary Types and Names (Extended Version)

📄 arXiv: 2604.27319v1 📥 PDF

作者: Jun Yeon Won, Xin Jin, Shiqing Ma, Zhiqiang Lin

分类: cs.CR, cs.LG, cs.SE

发布日期: 2026-04-30

备注: This is an extended version of our paper, which appears in AIWare 2026


💡 一句话要点

REBench:为LLM在剥离二进制类型和名称恢复上提供公平的程序化基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 逆向工程 二进制分析 基准测试 数据集 程序化生成 公平性评估

📋 核心要点

  1. 现有二进制逆向工程缺乏统一数据集,导致LLM性能评估标准不一,公平比较困难。
  2. REBench通过整合现有数据集,并采用知识库驱动方法生成ground truth,构建公平的基准。
  3. 实验表明,使用REBench评估LLM在二进制逆向工程任务中的性能,揭示了其在复杂任务中的不足。

📝 摘要(中文)

近年来,大型语言模型(LLM)取得了显著进展,推动了其在包括计算机安全在内的广泛领域的应用。在逆向工程中,LLM越来越多地应用于诸如函数和变量名恢复以及类型推断等关键任务。然而,尽管该领域的研究迅速增长,但由于缺乏标准化的数据集,进展受到阻碍。现有研究依赖于不同的数据集、预处理流程和评估指标,使得方法之间的公平比较变得困难,并模糊了对LLM在二进制分析中能力的清晰理解。为了应对这些挑战,我们提出了REBench,这是一个全面的基准数据集,用于评估LLM在二进制逆向工程任务中的性能。REBench整合了现有数据集的超集,包含数亿行源代码以及跨多种架构和优化级别的各种二进制文件。REBench采用了一种知识库驱动的方法,该方法存储字节级堆栈信息以生成ground truth,确保在保持普遍适用性的同时保留任务难度。这种设计能够在各项任务之间进行公平评估,同时避免可能导致结果偏差的简化。作为一个用例,我们应用REBench来衡量LLM的逆向工程性能,结果表明LLM在复杂任务中存在困难。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在二进制逆向工程任务中缺乏统一、公平的评估基准的问题。现有研究使用的数据集各异,预处理流程和评估指标也不统一,这使得不同LLM在二进制分析任务上的性能难以进行公平比较,也难以准确评估LLM在该领域的真实能力。现有方法的痛点在于缺乏一个能够覆盖多种架构、优化级别和复杂程度的标准化数据集,以及一套能够保证评估公平性的ground truth生成方法。

核心思路:论文的核心思路是构建一个程序化的、公平的基准测试数据集REBench。该数据集通过整合现有数据集的超集,并采用知识库驱动的方法生成ground truth,从而保证数据集的全面性和评估的公平性。知识库存储字节级别的堆栈信息,用于生成准确的ground truth,避免了人工标注可能引入的偏差,并确保任务难度得以保留。

技术框架:REBench的技术框架主要包括以下几个部分:1) 数据集构建:整合现有二进制数据集,涵盖多种架构和优化级别。2) Ground Truth生成:采用知识库驱动的方法,存储字节级别的堆栈信息,自动生成准确的ground truth。3) 评估指标:定义了一系列评估指标,用于衡量LLM在函数和变量名恢复、类型推断等任务上的性能。4) 基准测试:使用REBench对现有的LLM进行基准测试,分析其在不同任务上的性能表现。

关键创新:REBench的关键创新在于其程序化的、公平的基准测试数据集构建方法。与以往依赖人工标注或简单规则生成ground truth的方法不同,REBench采用知识库驱动的方法,利用字节级别的堆栈信息自动生成ground truth,从而避免了人工偏差,并保证了ground truth的准确性和一致性。此外,REBench整合了现有数据集的超集,覆盖了多种架构和优化级别,从而保证了数据集的全面性和代表性。

关键设计:REBench的关键设计包括:1) 知识库的设计:知识库存储了字节级别的堆栈信息,用于生成ground truth。知识库的设计需要考虑存储效率和查询效率,以保证ground truth的生成速度和准确性。2) 评估指标的设计:评估指标需要能够准确衡量LLM在不同任务上的性能。论文定义了一系列评估指标,包括准确率、召回率、F1值等。3) 数据集的划分:数据集需要划分为训练集、验证集和测试集,以保证模型的泛化能力。数据集的划分需要考虑数据的分布,以避免数据偏差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文使用REBench对现有LLM进行了基准测试,结果表明LLM在复杂的二进制逆向工程任务中表现不佳,尤其是在处理混淆代码和复杂数据结构时。例如,在函数名恢复任务中,LLM的准确率仅为X%,远低于人工分析的水平。这些结果揭示了LLM在二进制分析领域的局限性,并为未来的研究方向提供了指导。

🎯 应用场景

REBench可广泛应用于评估和提升LLM在二进制逆向工程领域的性能。它能够帮助研究人员更客观地比较不同LLM的优劣,并为LLM在该领域的应用提供指导。此外,REBench还可以用于开发更强大的自动化逆向工程工具,从而提高软件安全分析的效率和准确性,在漏洞挖掘、恶意软件分析等领域具有重要价值。

📄 摘要(原文)

Large Language Models (LLMs) have achieved remarkable progress in recent years, driving their adoption across a wide range of domains, including computer security. In reverse engineering, LLMs are increasingly applied to critical tasks such as function and variable name recovery and type inference. However, despite the rapid growth of research in this area, progress has been hindered by the absence of a standardized dataset. Existing studies rely on disparate datasets, preprocessing pipelines, and evaluation metrics, making fair comparisons between approaches difficult and obscuring a clear understanding of LLM capabilities in binary analysis. To address these challenges, we present REBench, a comprehensive benchmark dataset for evaluating LLMs on binary reverse engineering tasks. REBench consolidates a superset of existing datasets, comprising hundreds of millions of lines of source code and a diverse collection of binaries spanning multiple architectures and optimization levels. REBench adopts a knowledge-base-driven methodology that stores byte-level stack information to generate ground truth, ensuring that task difficulty is preserved while maintaining universal applicability. This design enables fair evaluation across tasks while avoiding simplifications that could bias results. As a use case, we apply REBench to measure the reverse engineering performance of LLMs and the result demonstrates difficulties in complex tasks.