ReFlect: An Effective Harness System for Complex Long-Horizon LLM Reasoning

作者: Fan Huang

分类: cs.AI, cs.CL

发布日期: 2026-05-07

💡 一句话要点

提出ReFlect推理框架：通过确定性封装实现长程任务的错误检测与自动恢复

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 长程推理 错误检测 推理辅助系统 确定性封装 自动化软件工程

📋 核心要点

现有推理范式在长程任务中难以有效识别并纠正累积错误，导致模型在多阶段推理中极易产生幻觉或逻辑偏差。
ReFlect通过引入确定性的推理辅助系统，将错误检测与恢复逻辑从模型内部解耦，作为外部封装运行。
实验证明该方法在多模型规模下均能显著提升成功率，且在基线性能越弱的模型上，其带来的性能增益越为显著。

📝 摘要（中文）

当前大语言模型（LLM）的推理范式（如思维链、ReAct及事后自我反思）在处理长程、多阶段任务时存在局限，导致错误在推理步骤中累积。本文提出了ReFlect，一种作为确定性封装（deterministic wrapper）的推理辅助系统，旨在实现独立的错误检测与恢复逻辑。实验表明，传统的提示词级自我反思往往流于形式，且模型极易接受错误答案。ReFlect在六个推理领域中表现出色，在不同规模模型上均实现了显著的成功率提升（如Claude Sonnet 4.5提升29个百分点）。研究发现，该系统的增益与模型基线成功率呈负相关，且无需额外训练，完全在推理阶段运行，在SWE-bench等复杂任务中大幅提升了输出质量。

🔬 方法详解

问题定义：论文旨在解决长程、多阶段任务中推理错误累积的问题。现有方法（如CoT、ReAct）依赖模型自身的自我反思能力，但实验发现这些方法往往生成公式化的模板，无法有效识别错误，导致模型在超过76%的情况下会错误地接受错误答案。

核心思路：ReFlect的核心思想是将错误检测与恢复逻辑从LLM的生成过程中剥离，构建一个确定性的“辅助系统”（Harness）。该系统作为模型外部的封装，强制执行独立的验证逻辑，而非依赖模型自身的概率性判断。

技术框架：系统架构由推理引擎与外部辅助封装组成。当模型执行推理步骤时，ReFlect介入并对中间状态进行确定性检查。若检测到失败，系统触发预定义的恢复机制，引导模型回溯或修正路径，确保推理过程的鲁棒性。

关键创新：与现有依赖模型内生反思的方法不同，ReFlect是模型无关且无需训练的。它通过确定性逻辑替代了不可靠的提示词级自我反思，解决了模型在复杂任务中“无法识别自身错误”的根本性痛点。

关键设计：该系统完全在推理时（Inference-time）运行。研究发现，试图通过增加结构化推理状态和算子来提升模型表现的效果有限（仅15-18%），因为当前模型难以可靠地填充这些算子所需的复杂状态，因此ReFlect侧重于通过确定性封装来规避模型在状态管理上的短板。

🖼️ 关键图片

📊 实验亮点

ReFlect在六个推理领域表现优异，成功率提升显著：Claude Sonnet 4.5提升29个百分点，Qwen2.5-72B提升7个百分点。在SWE-bench任务中，补丁结构质量从0%提升至82%-87%。实验揭示了显著的负相关规律：基线成功率每下降1个百分点，ReFlect平均能带来1.69个百分点的增益，证明了其在弱模型上的强大纠错潜力。

🎯 应用场景

ReFlect适用于需要高可靠性、长程逻辑推理的复杂任务场景，如自动化软件工程（SWE-bench）、复杂数学证明、多步规划任务及法律/医疗文档分析。其无需训练的特性使其能快速集成到现有的LLM推理流水线中，显著提升模型在处理长序列、高难度任务时的鲁棒性与准确率。

📄 摘要（原文）

Current reasoning paradigms for LLMs include chain-of-thought, ReAct, and post-hoc self-critique. These paradigms rely on two assumptions that fail on long-horizon, multi-stage tasks. As a result, errors accumulate silently across reasoning steps, leaving an open question: can a reasoning system effectively detect and recover from its own failures? We present ReFlect, a \emph{harness} system for LLM reasoning that creates standalone error detection and recovery logic as a deterministic wrapper around the model. Controlled experiments across 6 reasoning domains show that prompt-level self-critique produces formulaic templates that flag no issues in 90 of 100 audited reflection blocks, and the investigated LLMs wrongly accept a wrong answer in at least 76\% of cases. Our ReFlect harness achieves task success rates ranging from 41\% on gpt-4o-mini to 56\% on Claude Sonnet 4.5 across six models spanning small and frontier scale, with per-model gains over Direct CoT ranging from +7 pp on Qwen2.5-72B to +29 pp on Claude Sonnet 4.5, and additionally raises SWE-bench patch-structural quality from 0\% (Direct CoT) to between 82\% (Qwen2.5-72B) and 87\% (GPT-4o). Notably, the harness gain is inversely proportional to the model's Direct CoT task success rate (the fitted slope is -1.69 with r=-0.76): each pp lost in baseline success rate is mechanically recovered by 1.69 pp of harness gain. We spot that adding structured reasoning state and operators yields only 15.0--18.7\% pair-mean on Llama-3.3-70B and Qwen2.5-72B because models at this scale cannot reliably populate the state its operators require. ReFlect is model-agnostic, training-free, and operates entirely at inference time.

ReFlect: An Effective Harness System for Complex Long-Horizon LLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理