When Reasoning Beats Scale: A 1.5B Reasoning Model Outranks 13B LLMs as Discriminator
作者: Md Fahim Anjum
分类: cs.LG, cs.CL
发布日期: 2025-04-30
备注: 12 pages, 5 figures. Code available at: https://github.com/MDFahimAnjum/llm-planning-with-reasoning
💡 一句话要点
提出基于推理的判别器,15亿参数模型在文本到SQL任务上超越130亿参数LLM。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理模型 判别器 文本到SQL 思维链 蒸馏 智能体规划
📋 核心要点
- 现有LLM规划框架在候选评估中,缺乏对推理模型与非推理模型性能的充分对比研究。
- 论文提出利用推理模型的思维链(CoT)输出提取软分数,用于候选方案的细粒度排序和判别。
- 实验表明,15亿参数的推理模型DeepSeek-R1在判别任务上超越了70亿和130亿参数的非推理模型。
📝 摘要(中文)
大型语言模型(LLM)的推理能力为改进规划框架中的候选评估提供了一条有希望的途径,但它们相对于传统非推理模型的性能在很大程度上仍未被探索。本研究在一个用于文本到SQL任务的生成器-判别器LLM规划框架中,将一个蒸馏的15亿参数推理模型(DeepSeek-R1)与几个最先进的非推理LLM进行了基准测试。为此,我们引入了一种新颖的方法,用于从推理的思维链(CoT)输出中提取软分数,从而实现候选者的细粒度排序。我们的核心假设是,推理模型比非推理LLM更有效地作为判别器。结果表明,蒸馏的DeepSeek-R1-1.5B实现了高达87%的F1提升和比CodeLlama-7B高3.7%的判别准确率,以及比CodeLlama-13B高3.7%的执行准确率,尽管参数量明显更少。此外,我们发现推理模型的逻辑能力存在限制,仅仅提供更多的上下文或允许更多的计算预算来推理并不足以提高它们的判别性能。最后,我们证明,与非推理LLM不同,推理模型发现生成比判别更具挑战性,并且作为生成器可能不如较小的非推理LLM。我们的工作强调了推理模型作为智能体框架中判别器的潜力,远远超过了它们作为生成器的能力,为它们在LLM规划基础设施中的最佳角色提供了见解。
🔬 方法详解
问题定义:论文旨在解决文本到SQL任务中,如何更有效地评估候选SQL查询的问题。现有方法依赖于大型非推理LLM,但这些模型在逻辑推理方面存在局限性,导致判别性能不佳。论文关注如何利用参数量更小的推理模型,提升判别器的性能。
核心思路:论文的核心思路是利用推理模型在逻辑推理方面的优势,将其作为判别器,对生成器产生的候选SQL查询进行评估和排序。通过提取推理过程中的软分数,实现对候选方案的细粒度评估。这种方法旨在克服非推理LLM在逻辑推理方面的不足。
技术框架:论文采用生成器-判别器LLM规划框架。生成器负责生成多个候选SQL查询,判别器(即推理模型)负责对这些候选查询进行评估和排序。判别器通过思维链(CoT)进行推理,并从中提取软分数,用于对候选方案进行排序。最终选择得分最高的候选方案。
关键创新:论文的关键创新在于提出了一种从推理模型的思维链(CoT)输出中提取软分数的方法,用于细粒度地评估候选方案。这种方法允许利用推理过程中的中间结果,更准确地评估候选方案的质量。此外,论文还发现,推理模型在判别任务上优于生成任务,这为LLM规划框架的设计提供了新的思路。
关键设计:论文的关键设计包括:1) 使用DeepSeek-R1-1.5B作为推理模型,并对其进行蒸馏训练;2) 设计了一种从CoT输出中提取软分数的算法,具体细节未知;3) 针对文本到SQL任务,设计了合适的prompt,引导推理模型进行推理。
🖼️ 关键图片
📊 实验亮点
实验结果表明,15亿参数的DeepSeek-R1在文本到SQL任务上,实现了高达87%的F1提升和比CodeLlama-7B高3.7%的判别准确率,以及比CodeLlama-13B高3.7%的执行准确率。这表明,在判别任务中,推理模型可以超越参数量更大的非推理模型。此外,研究还发现,增加上下文或计算预算并不能无限提升推理模型的判别性能。
🎯 应用场景
该研究成果可应用于各种需要进行方案评估和选择的智能体系统中,例如机器人规划、自动驾驶、对话系统等。通过利用推理模型作为判别器,可以提高方案选择的准确性和效率,从而提升智能体系统的整体性能。未来的研究可以探索如何进一步优化推理模型的判别能力,并将其应用于更复杂的任务中。
📄 摘要(原文)
Large Language Models (LLM) with reasoning capabilities offer a promising path for improving candidate evaluation in planning frameworks, but their relative performance against traditional non-reasoning models remains largely underexplored. In this study, we benchmark a distilled 1.5B parameter reasoning model (DeepSeek-R1) against several state-of-the-art non-reasoning LLMs within a generator-discriminator LLM planning framework for the text-to-SQL task. For this, we introduce a novel method for extracting soft scores from the chain-of-thought (CoT) outputs from reasoning that enables fine-grained ranking of candidates. Our central hypothesis is that reasoning models are more effective discriminators than non-reasoning LLMs. Our results show that distilled DeepSeek-R1-1.5B achieves up to $87\%$ higher F1 and $3.7\%$ better discrimination accuracy than CodeLlama-7B, as well as $3.7\%$ higher execution accuracy than CodeLlama-13B, despite having significantly fewer parameters. Furthermore, we find that there is a limit to the logical capabilities of reasoning models, and only providing more context or allowing more compute budget for reasoning is not enough to improve their discrimination performance. Finally, we demonstrate that, unlike non-reasoning LLMs, reasoning models find generation more challenging than discrimination and may underperform as generators compared to smaller non-reasoning LLMs. Our work highlights the potential of reasoning models as discriminators in agentic frameworks, far outweighing their capabilities as generators, offering insights into their optimal role within LLM planning infrastructures.