EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

📄 arXiv: 2603.09678v1 📥 PDF

作者: Aman Sharma, Paras Chopra

分类: cs.AI, cs.LG, cs.SE

发布日期: 2026-03-10

备注: 24 pages, 7 figures, preprint


💡 一句话要点

EsoLang-Bench:通过冷门编程语言评估大语言模型的真正推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 代码生成 推理能力 冷门编程语言 基准测试 数据污染 泛化能力

📋 核心要点

  1. 现有代码生成基准测试易受数据污染影响,模型可能通过记忆而非推理获得高分。
  2. EsoLang-Bench 使用五种冷门编程语言,旨在评估模型在全新环境下的真正推理能力。
  3. 实验表明,即使在标准基准上表现良好的模型,在 EsoLang-Bench 上的表现也显著下降。

📝 摘要(中文)

大型语言模型在代码生成基准测试中取得了接近上限的性能,但这些结果越来越反映出记忆而非真正的推理。我们引入了EsoLang-Bench,这是一个使用五种冷门编程语言(Brainfuck、Befunge-98、Whitespace、Unlambda 和 Shakespeare)的基准测试,由于它们在预训练中的经济非理性,因此缺乏基准游戏激励。这些语言需要与主流编程相同的计算原语,但公共存储库的数量比 Python 少 1,000-100,000 倍(基于 GitHub 搜索计数)。我们评估了五种前沿模型在五种提示策略下的表现,发现了一个巨大的能力差距:在标准基准测试中达到 85-95% 的模型在等效的冷门任务中仅获得 0-11% 的分数,并且在简单级别之外的准确率为 0%。少样本学习和自我反思未能提高性能,这表明这些技术利用了训练先验,而不是实现真正的学习。EsoLang-Bench 提供了第一个旨在通过文档、解释器反馈和迭代实验来模仿人类学习新语言的基准测试,从而衡量抵抗数据污染的可转移推理技能。

🔬 方法详解

问题定义:现有代码生成基准测试存在数据污染问题,模型可能通过记忆训练数据而非真正理解编程逻辑来获得高分。这使得评估模型的泛化能力和推理能力变得困难。现有方法难以区分模型是真正学会了编程,还是仅仅记住了训练数据。

核心思路:通过使用冷门编程语言来创建一个新的基准测试,这些语言在预训练数据中出现的频率极低,从而降低了模型通过记忆来解决问题的可能性。核心思想是,如果模型能够成功地使用这些冷门语言编写代码,那么它更有可能具备真正的推理能力。

技术框架:EsoLang-Bench 包含五个冷门编程语言:Brainfuck、Befunge-98、Whitespace、Unlambda 和 Shakespeare。该基准测试提供了一系列编程任务,涵盖不同的难度级别。研究人员使用不同的提示策略(例如,零样本、少样本、自我反思)来评估大型语言模型在这些任务上的表现。

关键创新:EsoLang-Bench 的关键创新在于它使用了冷门编程语言,这些语言在预训练数据中出现的频率极低,从而降低了模型通过记忆来解决问题的可能性。这使得该基准测试能够更准确地评估模型的真正推理能力。此外,该基准测试的设计模仿了人类学习新语言的过程,即通过文档、解释器反馈和迭代实验。

关键设计:EsoLang-Bench 的关键设计包括选择合适的冷门编程语言,设计具有不同难度级别的编程任务,以及使用不同的提示策略来评估模型。研究人员还分析了模型在不同任务上的错误类型,以了解模型的优势和劣势。没有特别提及损失函数或网络结构,因为重点在于评估现有模型在新的基准测试上的表现。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,即使在标准基准测试中表现良好的模型(85-95%),在 EsoLang-Bench 上的表现也显著下降(0-11%),尤其是在简单级别之外的任务中准确率接近 0%。这表明现有模型在很大程度上依赖于记忆,而不是真正的推理。少样本学习和自我反思等技术未能显著提高性能,进一步证实了这一结论。

🎯 应用场景

该研究成果可应用于更可靠地评估大型语言模型的代码生成能力和推理能力。通过使用冷门编程语言,可以更好地了解模型是否真正理解编程逻辑,还是仅仅记住了训练数据。这对于开发更智能、更可靠的 AI 系统具有重要意义,尤其是在安全攸关的应用领域。

📄 摘要(原文)

Large language models achieve near-ceiling performance on code generation benchmarks, yet these results increasingly reflect memorization rather than genuine reasoning. We introduce EsoLang-Bench, a benchmark using five esoteric programming languages (Brainfuck, Befunge-98, Whitespace, Unlambda, and Shakespeare) that lack benchmark gaming incentives due to their economic irrationality for pre-training. These languages require the same computational primitives as mainstream programming but have 1,000-100,000x fewer public repositories than Python (based on GitHub search counts). We evaluate five frontier models across five prompting strategies and find a dramatic capability gap: models achieving 85-95% on standard benchmarks score only 0-11% on equivalent esoteric tasks, with 0% accuracy beyond the Easy tier. Few-shot learning and self-reflection fail to improve performance, suggesting these techniques exploit training priors rather than enabling genuine learning. EsoLang-Bench provides the first benchmark designed to mimic human learning by acquiring new languages through documentation, interpreter feedback, and iterative experimentation, measuring transferable reasoning skills resistant to data contamination.