Reverse-Engineered Reasoning for Open-Ended Generation

📄 arXiv: 2509.06160v1 📥 PDF

作者: Haozhe Wang, Haoran Que, Qixin Xu, Minghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Tong Yang, Wenhao Huang, Ge Zhang, Fangzhen Lin

分类: cs.AI, cs.CL

发布日期: 2025-09-07

备注: Preprint


💡 一句话要点

提出逆向工程推理(REER)方法,用于开放式生成任务,性能媲美GPT-4o。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 开放式生成 逆向工程推理 深度推理 数据集构建 自然语言生成

📋 核心要点

  1. 现有强化学习和指令蒸馏方法在开放式生成任务中面临奖励信号缺失和训练成本过高等挑战。
  2. REER通过从已知优秀结果逆向工程推理过程,避免了正向构建推理的困难,提升了效率。
  3. DeepWriter-8B模型在DeepWriting-20K数据集上训练,性能超越开源基线,媲美甚至优于GPT-4o等模型。

📝 摘要(中文)

深度推理范式在数学等可验证领域取得了显著进展,但将其应用于开放式、创造性生成仍然是一个关键挑战。强化学习(RL)和指令蒸馏是两种主要的推理方法,但它们在这方面都存在不足。强化学习难以获得清晰的奖励信号和高质量的奖励模型,而蒸馏的成本过高且受限于教师模型的能力。为了克服这些限制,我们引入了逆向工程推理(REER),这是一种从根本上转变方法的新范式。REER不是通过试错或模仿来“向前”构建推理过程,而是从已知的良好解决方案“向后”工作,以计算发现潜在的、逐步的深度推理过程,从而产生这些解决方案。使用这种可扩展的、无梯度的的方法,我们策划并开源了DeepWriting-20K,这是一个包含20,000个开放式任务深度推理轨迹的大规模数据集。我们的模型DeepWriter-8B,在该数据集上训练,不仅超越了强大的开源基线,而且在性能上与GPT-4o和Claude 3.5等领先的专有模型相媲美,甚至在某些时候优于它们。

🔬 方法详解

问题定义:论文旨在解决开放式生成任务中,现有深度推理方法(如强化学习和指令蒸馏)效果不佳的问题。强化学习依赖于清晰的奖励信号,但在开放式生成中难以定义。指令蒸馏则需要大量的训练数据和强大的教师模型,成本高昂且性能受限。

核心思路:论文的核心思路是逆向工程推理(REER)。不同于传统方法从输入到输出正向构建推理过程,REER从已知的优秀输出结果出发,反向推导出生成这些结果所需的潜在推理步骤。这种方法避免了直接搜索推理过程的困难,转而寻找已存在的“答案”对应的“解题步骤”。

技术框架:REER框架主要包含以下步骤:1) 收集高质量的开放式生成结果;2) 设计算法,从这些结果中逆向推导出可能的推理轨迹;3) 构建大规模数据集,包含输入、输出和推理轨迹;4) 使用该数据集训练生成模型。该框架的关键在于推理轨迹的逆向推导算法,以及数据集的构建。

关键创新:REER最重要的创新在于其逆向推理的思路。它将开放式生成问题转化为一个搜索已知解的推理路径的问题,避免了传统方法中奖励函数设计和模型训练的困难。这种方法更易于扩展,并且可以利用已有的高质量生成结果。

关键设计:论文构建了DeepWriting-20K数据集,包含20,000个深度推理轨迹。具体的技术细节(如逆向推理算法、损失函数、网络结构等)在摘要中未详细说明,属于未知信息。但数据集的规模和质量是模型性能的关键保证。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DeepWriter-8B模型在DeepWriting-20K数据集上训练后,在开放式生成任务中取得了显著成果。实验结果表明,该模型不仅超越了现有的开源基线模型,而且在性能上与GPT-4o和Claude 3.5等领先的专有模型相媲美,甚至在某些情况下优于它们。这证明了REER方法的有效性和潜力。

🎯 应用场景

REER方法可应用于各种开放式生成任务,如故事创作、创意写作、代码生成等。它能够提升生成内容的多样性和创造性,并降低训练成本。该研究有望推动人工智能在创意领域的应用,并为构建更智能、更具创造力的AI系统提供新的思路。

📄 摘要(原文)

While the deep reasoning'' paradigm has spurred significant advances in verifiable domains like mathematics, its application to open-ended, creative generation remains a critical challenge. The two dominant methods for instilling reasoning -- reinforcement learning (RL) and instruction distillation -- falter in this area; RL struggles with the absence of clear reward signals and high-quality reward models, while distillation is prohibitively expensive and capped by the teacher model's capabilities. To overcome these limitations, we introduce REverse-Engineered Reasoning (REER), a new paradigm that fundamentally shifts the approach. Instead of building a reasoning processforwards'' through trial-and-error or imitation, REER works ``backwards'' from known-good solutions to computationally discover the latent, step-by-step deep reasoning process that could have produced them. Using this scalable, gradient-free approach, we curate and open-source DeepWriting-20K, a large-scale dataset of 20,000 deep reasoning trajectories for open-ended tasks. Our model, DeepWriter-8B, trained on this data, not only surpasses strong open-source baselines but also achieves performance competitive with, and at times superior to, leading proprietary models like GPT-4o and Claude 3.5.