Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles

📄 arXiv: 2505.19914v2 📥 PDF

作者: Jiangjie Chen, Qianyu He, Siyu Yuan, Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang

分类: cs.CL, cs.AI

发布日期: 2025-05-26 (更新: 2025-06-09)


💡 一句话要点

Enigmata:通过合成可验证谜题提升大语言模型逻辑推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 逻辑推理 强化学习 谜题数据集 多任务学习

📋 核心要点

  1. 现有大语言模型在数学和编程等高级推理任务上表现出色,但在无需领域知识即可解决的谜题上仍然存在困难。
  2. Enigmata通过构建包含生成器和验证器的谜题数据集,并结合多任务强化学习,提升模型在谜题推理方面的能力。
  3. 实验表明,使用Enigmata训练的模型在谜题推理和数学推理任务上均取得了显著提升,并具备良好的泛化能力。

📝 摘要(中文)

本文提出了Enigmata,一个旨在提升大语言模型(LLMs)谜题推理能力的综合套件。它包含七个类别共36个任务,每个任务都配备了可控难度、无限生成样本的生成器以及用于自动评估的基于规则的验证器。这种生成器-验证器设计支持可扩展的多任务强化学习训练、细粒度分析和无缝的RLVR集成。此外,本文还提出了Enigmata-Eval,一个严格的基准测试,并开发了优化的多任务RLVR策略。训练后的模型Qwen2.5-32B-Enigmata在Enigmata-Eval、ARC-AGI (32.8%)和ARC-AGI 2 (0.6%)等谜题推理基准测试中始终优于o3-mini-high和o1。它还能很好地泛化到领域外的谜题基准和数学推理,且多任务处理的权衡很小。在更大的模型(如Seed1.5-Thinking)上进行训练时,来自Enigmata的谜题数据进一步提升了AIME (2024-2025)、BeyondAIME和GPQA (Diamond)等高级数学和STEM推理任务的SoTA性能,展示了Enigmata良好的泛化优势。这项工作提供了一个统一的、可控的框架,用于提升LLM中的逻辑推理能力。

🔬 方法详解

问题定义:现有的大语言模型虽然在数学、编程等需要专业知识的推理任务上表现出色,但在一些人类可以轻松解决,但不需要特定领域知识的逻辑谜题上表现不佳。这表明模型在通用逻辑推理能力上存在不足。

核心思路:论文的核心思路是构建一个可控的、可扩展的谜题数据集,并利用强化学习方法训练模型,使其能够更好地解决这些谜题。通过这种方式,提升模型的通用逻辑推理能力。

技术框架:Enigmata框架包含以下几个主要组成部分:1) 谜题生成器:用于生成各种类型的逻辑谜题,并可以控制谜题的难度。2) 谜题验证器:用于自动验证模型给出的答案是否正确。3) 多任务强化学习训练:利用生成器和验证器,对模型进行多任务强化学习训练,使其能够解决不同类型的谜题。4) Enigmata-Eval基准测试:用于评估模型在谜题推理方面的性能。

关键创新:Enigmata的关键创新在于其生成器-验证器设计,这使得可以自动生成大量的、可验证的谜题数据,从而支持可扩展的强化学习训练。此外,多任务强化学习策略也能够提升模型的泛化能力。与以往依赖人工标注的数据集相比,Enigmata可以无限生成数据,并且可以精确控制难度。

关键设计:Enigmata中的谜题生成器使用了基于规则的方法,可以生成各种类型的逻辑谜题,例如数独、填字游戏等。验证器则使用规则引擎来判断答案的正确性。在强化学习训练中,使用了多任务学习策略,同时训练模型解决不同类型的谜题。具体的奖励函数设计需要根据不同的谜题类型进行调整,目标是鼓励模型给出正确且合理的答案。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Qwen2.5-32B-Enigmata模型在Enigmata-Eval基准测试中超越了o3-mini-high和o1,在ARC-AGI上取得了32.8%的成绩,在ARC-AGI 2上取得了0.6%的成绩。此外,在更大的模型(如Seed1.5-Thinking)上进行训练时,来自Enigmata的谜题数据进一步提升了AIME (2024-2025)、BeyondAIME和GPQA (Diamond)等高级数学和STEM推理任务的SoTA性能。

🎯 应用场景

Enigmata的研究成果可以应用于提升大语言模型在通用逻辑推理方面的能力,使其能够更好地解决各种需要逻辑思维的问题。这在智能助手、问题求解、决策支持等领域具有广泛的应用前景。未来,可以进一步探索如何将Enigmata与其他技术相结合,例如知识图谱、符号推理等,以构建更加强大的智能系统。

📄 摘要(原文)

Large Language Models (LLMs), such as OpenAI's o1 and DeepSeek's R1, excel at advanced reasoning tasks like math and coding via Reinforcement Learning with Verifiable Rewards (RLVR), but still struggle with puzzles solvable by humans without domain knowledge. We introduce Enigmata, the first comprehensive suite tailored for improving LLMs with puzzle reasoning skills. It includes 36 tasks across seven categories, each with 1) a generator that produces unlimited examples with controllable difficulty and 2) a rule-based verifier for automatic evaluation. This generator-verifier design supports scalable, multi-task RL training, fine-grained analysis, and seamless RLVR integration. We further propose Enigmata-Eval, a rigorous benchmark, and develop optimized multi-task RLVR strategies. Our trained model, Qwen2.5-32B-Enigmata, consistently surpasses o3-mini-high and o1 on the puzzle reasoning benchmarks like Enigmata-Eval, ARC-AGI (32.8%), and ARC-AGI 2 (0.6%). It also generalizes well to out-of-domain puzzle benchmarks and mathematical reasoning, with little multi-tasking trade-off. When trained on larger models like Seed1.5-Thinking (20B activated parameters and 200B total parameters), puzzle data from Enigmata further boosts SoTA performance on advanced math and STEM reasoning tasks such as AIME (2024-2025), BeyondAIME and GPQA (Diamond), showing nice generalization benefits of Enigmata. This work offers a unified, controllable framework for advancing logical reasoning in LLMs. Resources of this work can be found at https://seed-enigmata.github.io.