CREBench: Evaluating Large Language Models in Cryptographic Binary Reverse Engineering
作者: Baicheng Chen, Yu Wang, Ziheng Zhou, Xiangru Liu, Juanru Li, Yilei Chen, Tianxing He
分类: cs.CR, cs.AI, cs.CL
发布日期: 2026-04-07
💡 一句话要点
CREBench:评估大型语言模型在密码二进制逆向工程中的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 逆向工程 大型语言模型 密码学 基准测试 软件安全
📋 核心要点
- 密码程序逆向工程是软件安全的关键,但其劳动密集性和对专业知识的高要求构成挑战。
- CREBench基准测试旨在系统评估大型语言模型在密码二进制逆向工程中的能力。
- 实验结果表明,现有LLM在密码逆向工程方面仍有提升空间,人类专家仍具有优势。
📝 摘要(中文)
逆向工程(RE)是软件安全的核心,尤其对于处理敏感数据且极易出现漏洞的密码程序。它支持诸如漏洞发现和恶意软件分析等关键任务。尽管其重要性,RE仍然是劳动密集型的,并且需要大量的专业知识,这使得大型语言模型(LLM)成为自动化该过程的潜在解决方案。然而,它们在RE方面的能力仍未得到系统的探索。为了弥补这一差距,我们研究了LLM的密码二进制RE能力,并引入了 extbf{CREBench},这是一个包含432个挑战的基准,这些挑战来自48种标准密码算法、3种不安全的密码密钥使用场景和3个难度级别。每个挑战都遵循夺旗(CTF) RE挑战,要求模型分析底层密码逻辑并恢复正确的输入。我们设计了一个包含四个子任务的评估框架,从算法识别到正确的flag恢复。我们在CREBench上评估了八个前沿LLM。性能最佳的模型GPT-5.4获得了100分中的64.03分,并在59%的挑战中恢复了flag。我们还建立了一个强大的92.19分的人工专家基线,表明人类在密码RE任务中保持优势。我们的代码和数据集可在该https URL上获得。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLMs)在密码二进制逆向工程(RE)方面的能力。现有方法依赖人工,效率低且成本高。LLMs虽然有潜力自动化RE过程,但其在密码学领域的RE能力缺乏系统性的评估和基准测试。因此,需要一个标准化的评估平台来衡量LLMs在密码RE任务中的表现,并识别其优势和不足。
核心思路:论文的核心思路是构建一个专门用于评估LLMs在密码二进制RE能力上的基准测试集CREBench。通过设计一系列具有不同难度和密码学算法的挑战,模拟真实的CTF RE场景,从而系统地评估LLMs在算法识别、逻辑分析和flag恢复等方面的能力。这种方法能够量化LLMs的性能,并为未来的研究提供参考。
技术框架:CREBench的评估框架包含以下几个主要模块:1) 挑战生成器:用于生成包含不同密码算法、不安全密钥使用场景和难度级别的RE挑战。2) LLM接口:用于将RE挑战输入到LLMs中,并获取LLMs的输出结果。3) 评估模块:用于评估LLMs的输出结果,包括算法识别的准确率、逻辑分析的正确性和flag恢复的成功率。4) 人工专家基线:用于建立一个人工专家在CREBench上的性能基线,以便与LLMs的性能进行比较。
关键创新:该论文的关键创新在于构建了一个专门针对密码二进制RE的基准测试集CREBench。与现有的通用RE基准测试集不同,CREBench专注于密码学算法和漏洞,能够更准确地评估LLMs在密码RE方面的能力。此外,该论文还设计了一个包含多个子任务的评估框架,能够全面地评估LLMs在不同方面的性能。
关键设计:CREBench包含432个挑战,涵盖48种标准密码算法、3种不安全的密钥使用场景和3个难度级别。每个挑战都设计成CTF RE的形式,要求模型分析底层密码逻辑并恢复正确的flag。评估框架包含四个子任务:算法识别、参数提取、逻辑理解和flag恢复。论文选择了八个前沿LLMs进行评估,并建立了一个人工专家基线。评估指标包括算法识别准确率、逻辑分析正确率和flag恢复成功率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-5.4在CREBench上取得了最佳性能,获得了64.03/100的分数,并在59%的挑战中成功恢复了flag。然而,与人工专家基线(92.19分)相比,LLM在密码二进制逆向工程方面仍有较大差距,表明该领域仍有很大的研究空间。
🎯 应用场景
该研究成果可应用于自动化漏洞挖掘、恶意软件分析和安全审计等领域。通过利用LLM辅助密码二进制逆向工程,可以显著提高安全分析的效率和准确性,降低对人工专业知识的依赖。未来,该研究可以推动LLM在软件安全领域的更广泛应用,例如自动化代码修复和安全策略生成。
📄 摘要(原文)
Reverse engineering (RE) is central to software security, particularly for cryptographic programs that handle sensitive data and are highly prone to vulnerabilities. It supports critical tasks such as vulnerability discovery and malware analysis. Despite its importance, RE remains labor-intensive and requires substantial expertise, making large language models (LLMs) a potential solution for automating the process. However, their capabilities for RE remain systematically underexplored. To address this gap, we study the cryptographic binary RE capabilities of LLMs and introduce \textbf{CREBench}, a benchmark comprising 432 challenges built from 48 standard cryptographic algorithms, 3 insecure crypto key usage scenarios, and 3 difficulty levels. Each challenge follows a Capture-the-Flag (CTF) RE challenge, requiring the model to analyze the underlying cryptographic logic and recover the correct input. We design an evaluation framework comprising four sub-tasks, from algorithm identification to correct flag recovery. We evaluate eight frontier LLMs on CREBench. GPT-5.4, the best-performing model, achieves 64.03 out of 100 and recovers the flag in 59\% of challenges. We also establish a strong human expert baseline of 92.19 points, showing that humans maintain an advantage in cryptographic RE tasks. Our code and dataset are available atthis https URL.