One Refiner to Unlock Them All: Inference-Time Reasoning Elicitation via Reinforcement Query Refinement
作者: Yixiao Zhou, Dongzhou Cheng, zhiliang wu, Yi Yang, Yu Cheng, Hehe Fan
分类: cs.CL
发布日期: 2026-04-28
备注: Accepted to ACL26
🔗 代码/项目: GITHUB
💡 一句话要点
提出ReQueR,通过强化学习优化查询,提升大语言模型推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 推理引导 强化学习 查询优化 推理时对齐
📋 核心要点
- 现有方法难以有效引导LLM进行推理,存在成本高昂或无法处理复杂查询的问题。
- ReQueR通过强化学习训练Refiner,将原始查询转化为逻辑分解,从而引导LLM进行推理。
- 实验表明,ReQueR在多种模型和基准测试中均取得了显著提升,且具有良好的泛化能力。
📝 摘要(中文)
大型语言模型(LLMs)由于模糊的人类查询与机器激活所需的结构化逻辑之间的分布不匹配,常常无法利用其潜在的推理能力。现有的对齐方法要么通过单独微调每个模型而产生高昂的$O(N)$成本,要么依赖于无法解决查询级别结构复杂性的静态提示。本文提出了ReQueR( extbf{Re}inforcement extbf{Que}ry extbf{R}efinement),一个模块化框架,将推理引导视为推理时对齐任务。我们通过强化学习训练一个专门的Refiner策略,将原始查询重写为显式的逻辑分解,并将冻结的LLM视为环境。基于教育心理学中的经典“最近发展区”理论,我们引入了自适应求解器层次结构,这是一种课程机制,通过动态地将环境难度与Refiner不断发展的能力对齐来稳定训练。ReQueR在不同的架构和基准测试中产生了1.7%--7.2%的一致绝对收益,平均优于强大的基线2.1%。至关重要的是,它为一对多的推理时推理引导提供了一个有希望的范例,使在少量模型上训练的单个Refiner能够有效地解锁各种未见模型的推理能力。
🔬 方法详解
问题定义:大型语言模型虽然具备潜在的推理能力,但由于人类查询的模糊性和模型所需结构化逻辑之间的差异,导致模型难以有效利用这些能力。现有的方法,如对每个模型进行微调,成本过高;而静态提示则无法处理复杂的查询结构。这些方法未能充分挖掘LLM的推理潜力。
核心思路:ReQueR的核心思路是将推理引导视为一个推理时对齐问题。通过训练一个专门的Refiner策略,将原始的、可能模糊的查询转化为更清晰、更结构化的逻辑分解形式,从而更好地激发LLM的推理能力。这种方法避免了对每个模型进行单独训练,并且能够动态地适应不同查询的复杂性。
技术框架:ReQueR框架包含两个主要组成部分:Refiner和冻结的LLM。Refiner是一个策略网络,负责将原始查询重写为逻辑分解。LLM则被视为环境,Refiner的行动(即重写后的查询)会影响LLM的输出(即推理结果)。整个训练过程通过强化学习进行,目标是最大化LLM的推理准确率。此外,ReQueR还引入了自适应求解器层次结构,作为一种课程学习机制,逐步增加训练难度。
关键创新:ReQueR的关键创新在于将推理引导问题转化为一个推理时对齐任务,并利用强化学习来训练一个通用的Refiner。与传统的微调方法相比,ReQueR避免了对每个模型进行单独训练,从而大大降低了成本。与静态提示相比,ReQueR能够动态地适应不同查询的复杂性,从而更有效地引导LLM进行推理。自适应求解器层次结构则保证了训练的稳定性和效率。
关键设计:Refiner策略网络可以使用各种神经网络架构,例如Transformer。强化学习算法可以选择Policy Gradient方法,例如PPO。奖励函数的设计至关重要,需要能够准确地反映LLM的推理准确率。自适应求解器层次结构通过动态调整训练数据的难度,例如逐步增加查询的复杂性,来提高Refiner的泛化能力。具体实现细节,如学习率、batch size等,需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ReQueR在多个基准测试中取得了显著的性能提升。例如,在某些任务上,ReQueR的性能提升高达7.2%,平均优于强大的基线2.1%。更重要的是,ReQueR展现出了良好的泛化能力,即在少量模型上训练的Refiner可以有效地提升未见模型的推理性能。这些结果表明,ReQueR是一种有效的推理引导方法。
🎯 应用场景
ReQueR具有广泛的应用前景,可以应用于各种需要复杂推理的任务,例如问答系统、知识图谱推理、代码生成等。通过训练一个通用的Refiner,可以显著降低部署和维护成本,并提高LLM在各种场景下的推理性能。该方法还可以促进LLM在资源受限环境下的应用。
📄 摘要(原文)
Large Language Models (LLMs) often fail to utilize their latent reasoning capabilities due to a distributional mismatch between ambiguous human inquiries and the structured logic required for machine activation. Existing alignment methods either incur prohibitive $O(N)$ costs by fine-tuning each model individually or rely on static prompts that fail to resolve query-level structural complexity. In this paper, we propose ReQueR (\textbf{Re}inforcement \textbf{Que}ry \textbf{R}efinement), a modular framework that treats reasoning elicitation as an inference-time alignment task. We train a specialized Refiner policy via Reinforcement Learning to rewrite raw queries into explicit logical decompositions, treating frozen LLMs as the environment. Rooted in the classical Zone of Proximal Development from educational psychology, we introduce the Adaptive Solver Hierarchy, a curriculum mechanism that stabilizes training by dynamically aligning environmental difficulty with the Refiner's evolving competence. ReQueR yields consistent absolute gains of 1.7\%--7.2\% across diverse architectures and benchmarks, outperforming strong baselines by 2.1\% on average. Crucially, it provides a promising paradigm for one-to-many inference-time reasoning elicitation, enabling a single Refiner trained on a small set of models to effectively unlock reasoning in diverse unseen models. Code is available at https://github.com/newera-xiao/ReQueR.