Hindsight Hint Distillation: Scaffolded Reasoning for SWE Agents from CoT-free Answers

📄 arXiv: 2605.11556v1 📥 PDF

作者: Shengjie Wang, Guanghe Li, Zonghan Yang, Yang Gao

分类: cs.AI, cs.LG

发布日期: 2026-05-12

备注: 28 pages, 7 figures


💡 一句话要点

提出HHD,利用无CoT问答对为软件工程Agent构建脚手架式推理,提升长程任务性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 软件工程Agent 后见之明提示 蒸馏学习 无CoT数据 长程任务 推理能力 SWE-bench

📋 核心要点

  1. 现有方法缺乏高效利用无CoT数据进行复杂推理学习的能力,限制了软件工程Agent的性能提升。
  2. HHD通过从模型失败的rollout中提取后见之明提示,构建脚手架式轨迹,引导模型学习有效的推理策略。
  3. 实验表明,HHD在SWE-bench上显著优于现有方法,尤其在分布外任务上表现出强大的泛化能力。

📝 摘要(中文)

解决复杂长程任务需要强大的规划和推理能力。虽然带有显式思维链(CoT)的数据集对学习有很大帮助,但获取成本高昂。为了应对这一挑战,我们提出了后见之明提示蒸馏(HHD),它只需要易于获取的无CoT标注的问答对。受到人类教师利用学生错误提供有针对性指导的启发,HHD从模型自身失败的自我rollout中合成后见之明提示,并使用它们来构建成功完成任务的on-policy rollout。然后,模型自我蒸馏这些脚手架式轨迹,并推广到没有提示指导的新问题。实验表明,HHD显著优于迭代RFT和轨迹合成基线,在SWE-bench Verified上实现了8%的绝对改进,而所有基线仅提高了2%左右。值得注意的是,HHD诱导的推理策略有效地推广到分布外任务,即使没有在多语言数据上进行训练,也能在SWE-bench Multilingual上产生最大的收益。这些结果表明,HHD可以有效地从无CoT数据中合成类似专家的推理,并显著提高长程性能。

🔬 方法详解

问题定义:论文旨在解决软件工程Agent在复杂长程任务中,由于缺乏高质量的思维链(CoT)数据而导致的推理能力不足的问题。现有方法依赖于昂贵的CoT标注数据,或者难以有效利用无CoT数据进行学习,导致Agent在复杂任务上的性能提升有限。

核心思路:HHD的核心思路是模仿人类教师从学生错误中学习并提供针对性指导的方式。通过分析模型自身失败的rollout,提取后见之明提示(Hindsight Hints),这些提示能够指导模型进行更有效的探索和学习。这种方法避免了对昂贵CoT数据的依赖,并能够从模型自身的经验中学习。

技术框架:HHD包含以下主要阶段:1) 自我Rollout:模型在没有提示的情况下进行自我探索,尝试解决任务。2) 后见之明提示生成:分析失败的rollout,提取关键的错误步骤,并生成相应的后见之明提示。3) 脚手架式Rollout:利用后见之明提示引导模型进行on-policy rollout,构建成功的轨迹。4) 自我蒸馏:将脚手架式轨迹作为专家知识,对模型进行自我蒸馏,使其能够泛化到没有提示的新问题。

关键创新:HHD的关键创新在于利用后见之明提示,从模型自身的失败经验中学习。与传统的模仿学习或强化学习方法不同,HHD不需要外部的专家数据或复杂的奖励函数,而是通过自我分析和自我指导的方式,提高模型的推理能力。这种方法能够有效地利用无CoT数据,降低了学习成本,并提高了模型的泛化能力。

关键设计:HHD的关键设计包括:1) 如何有效地从失败的rollout中提取有用的后见之明提示。这可能涉及到对模型行为的分析、错误类型的识别以及提示的生成策略。2) 如何设计脚手架式rollout,以确保模型能够有效地利用提示,并构建成功的轨迹。3) 如何进行自我蒸馏,以确保模型能够将从脚手架式轨迹中学到的知识泛化到新的问题。具体的参数设置、损失函数和网络结构等细节可能需要根据具体的任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HHD在SWE-bench Verified上实现了8%的绝对改进,显著优于迭代RFT和轨迹合成基线(仅提升2%左右)。更重要的是,HHD诱导的推理策略能够有效泛化到分布外任务,在SWE-bench Multilingual上取得了最大的收益,即使没有在多语言数据上进行训练。这些结果表明HHD能够有效地从无CoT数据中学习,并提高Agent的泛化能力。

🎯 应用场景

HHD方法可应用于各种需要复杂推理和规划的软件工程任务,例如代码生成、程序修复、软件测试等。通过利用无CoT数据,HHD可以降低训练成本,并提高Agent在实际应用中的性能和鲁棒性。该方法还有潜力推广到其他领域,如机器人控制、自然语言处理等。

📄 摘要(原文)

Solving complex long-horizon tasks requires strong planning and reasoning capabilities. Although datasets with explicit chain-of-thought (CoT) rationales can substantially benefit learning, they are costly to obtain. To address this challenge, we propose Hindsight Hint Distillation (HHD), which only requires easy-to-obtain question-answer pairs without CoT annotations. Inspired by how human teachers use student mistakes to provide targeted guidance, HHD synthesizes hindsight hints from the model's own failed self-rollouts and uses them to scaffold on-policy rollouts that successfully complete the tasks. The model then self-distills these scaffolded trajectories and generalizes to new problems without hint guidance. Experiments show that HHD significantly outperforms iterative RFT and trajectory-synthesis baselines, achieving an absolute improvement of 8\% on SWE-bench Verified, while all baselines improve by only around 2\%. Notably, the reasoning strategies induced by HHD generalize effectively to out-of-distribution tasks, yielding the largest gains on SWE-bench Multilingual despite no training on multilingual data. These results demonstrate that HHD can effectively synthesize expert-like reasoning from CoT-free data and substantially improve long-horizon performance.