ReFlect: An Effective Harness System for Complex Long-Horizon LLM Reasoning

📄 arXiv: 2605.05737v1 📥 PDF

作者: Fan Huang

分类: cs.AI, cs.CL

发布日期: 2026-05-07


💡 一句话要点

提出ReFlect推理框架:通过确定性封装实现长程任务的错误检测与自动恢复

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 长程推理 错误检测 推理辅助系统 确定性封装 自动化软件工程

📋 核心要点

  1. 现有推理范式在长程任务中难以有效识别并纠正累积错误,导致模型在多阶段推理中极易产生幻觉或逻辑偏差。
  2. ReFlect通过引入确定性的推理辅助系统,将错误检测与恢复逻辑从模型内部解耦,作为外部封装运行。
  3. 实验证明该方法在多模型规模下均能显著提升成功率,且在基线性能越弱的模型上,其带来的性能增益越为显著。

📝 摘要(中文)

当前大语言模型(LLM)的推理范式(如思维链、ReAct及事后自我反思)在处理长程、多阶段任务时存在局限,导致错误在推理步骤中累积。本文提出了ReFlect,一种作为确定性封装(deterministic wrapper)的推理辅助系统,旨在实现独立的错误检测与恢复逻辑。实验表明,传统的提示词级自我反思往往流于形式,且模型极易接受错误答案。ReFlect在六个推理领域中表现出色,在不同规模模型上均实现了显著的成功率提升(如Claude Sonnet 4.5提升29个百分点)。研究发现,该系统的增益与模型基线成功率呈负相关,且无需额外训练,完全在推理阶段运行,在SWE-bench等复杂任务中大幅提升了输出质量。

🔬 方法详解

问题定义:论文旨在解决长程、多阶段任务中推理错误累积的问题。现有方法(如CoT、ReAct)依赖模型自身的自我反思能力,但实验发现这些方法往往生成公式化的模板,无法有效识别错误,导致模型在超过76%的情况下会错误地接受错误答案。

核心思路:ReFlect的核心思想是将错误检测与恢复逻辑从LLM的生成过程中剥离,构建一个确定性的“辅助系统”(Harness)。该系统作为模型外部的封装,强制执行独立的验证逻辑,而非依赖模型自身的概率性判断。

技术框架:系统架构由推理引擎与外部辅助封装组成。当模型执行推理步骤时,ReFlect介入并对中间状态进行确定性检查。若检测到失败,系统触发预定义的恢复机制,引导模型回溯或修正路径,确保推理过程的鲁棒性。

关键创新:与现有依赖模型内生反思的方法不同,ReFlect是模型无关且无需训练的。它通过确定性逻辑替代了不可靠的提示词级自我反思,解决了模型在复杂任务中“无法识别自身错误”的根本性痛点。

关键设计:该系统完全在推理时(Inference-time)运行。研究发现,试图通过增加结构化推理状态和算子来提升模型表现的效果有限(仅15-18%),因为当前模型难以可靠地填充这些算子所需的复杂状态,因此ReFlect侧重于通过确定性封装来规避模型在状态管理上的短板。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReFlect在六个推理领域表现优异,成功率提升显著:Claude Sonnet 4.5提升29个百分点,Qwen2.5-72B提升7个百分点。在SWE-bench任务中,补丁结构质量从0%提升至82%-87%。实验揭示了显著的负相关规律:基线成功率每下降1个百分点,ReFlect平均能带来1.69个百分点的增益,证明了其在弱模型上的强大纠错潜力。

🎯 应用场景

ReFlect适用于需要高可靠性、长程逻辑推理的复杂任务场景,如自动化软件工程(SWE-bench)、复杂数学证明、多步规划任务及法律/医疗文档分析。其无需训练的特性使其能快速集成到现有的LLM推理流水线中,显著提升模型在处理长序列、高难度任务时的鲁棒性与准确率。

📄 摘要(原文)

Current reasoning paradigms for LLMs include chain-of-thought, ReAct, and post-hoc self-critique. These paradigms rely on two assumptions that fail on long-horizon, multi-stage tasks. As a result, errors accumulate silently across reasoning steps, leaving an open question: can a reasoning system effectively detect and recover from its own failures? We present ReFlect, a \emph{harness} system for LLM reasoning that creates standalone error detection and recovery logic as a deterministic wrapper around the model. Controlled experiments across 6 reasoning domains show that prompt-level self-critique produces formulaic templates that flag no issues in 90 of 100 audited reflection blocks, and the investigated LLMs wrongly accept a wrong answer in at least 76\% of cases. Our ReFlect harness achieves task success rates ranging from 41\% on gpt-4o-mini to 56\% on Claude Sonnet 4.5 across six models spanning small and frontier scale, with per-model gains over Direct CoT ranging from +7 pp on Qwen2.5-72B to +29 pp on Claude Sonnet 4.5, and additionally raises SWE-bench patch-structural quality from 0\% (Direct CoT) to between 82\% (Qwen2.5-72B) and 87\% (GPT-4o). Notably, the harness gain is inversely proportional to the model's Direct CoT task success rate (the fitted slope is -1.69 with r=-0.76): each pp lost in baseline success rate is mechanically recovered by 1.69 pp of harness gain. We spot that adding structured reasoning state and operators yields only 15.0--18.7\% pair-mean on Llama-3.3-70B and Qwen2.5-72B because models at this scale cannot reliably populate the state its operators require. ReFlect is model-agnostic, training-free, and operates entirely at inference time.