HRBench: Benchmarking and Understanding Thinking-Mode Switch Strategies in Hybrid-Reasoning LLMs

📄 arXiv: 2605.28398v1 📥 PDF

作者: Yansong Ning, Mianpeng Liu, Jingwen Ye, Weidong Zhang, Hao Liu

分类: cs.AI

发布日期: 2026-05-27

备注: Under review

🔗 代码/项目: GITHUB


💡 一句话要点

HRBench:混合推理LLM中思维模式切换策略的基准测试与理解

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合推理 大型语言模型 思维模式切换 基准测试 效率优化

📋 核心要点

  1. 现有自适应推理方法缺乏统一评估标准,难以公平比较不同策略在效率和效果上的权衡。
  2. HRBench构建统一评估框架,涵盖多种切换策略和训练方式,系统性分析不同策略的优劣。
  3. 实验表明,不同策略在token成本和准确率之间有不同权衡,且最佳策略依赖于模型规模和任务。

📝 摘要(中文)

混合推理大型语言模型(LLMs)允许对推理过程进行显式控制,用户或系统可以在答案质量和推理成本之间进行权衡。然而,现有的自适应思维模式选择方法通常在不同的模型、数据集和实现假设下进行评估,难以比较它们的实际行为。我们提出了HRBench,一个统一的评估框架,用于研究混合推理LLM中的思维模式切换。HRBench沿着两个轴组织设计空间:三种切换策略族(基于提示的选择、外部路由和推测执行)和四种训练方式(免训练、SFT、离线和在线RL),从而产生12种受控的评估设置。我们评估了从Qwen3.5-2B到Kimi-K2.5-1.1T的6个LLM和涵盖数学、科学和代码的5个推理基准,同时在同一pipeline中重新实现了12+种具有代表性的先前方法。我们的分析表明,不同的切换策略占据不同的有效性-效率权衡区域:基于提示的方法通常提供良好的token-准确率权衡,路由方法提供更稳定的成本降低,而推测方法倾向于以更高的token成本提高准确率。我们进一步发现,训练方式对策略的影响不同,并且首选策略随模型规模和任务领域而变化。HRBench提供参考实现和统一的评估平台,以支持对混合推理LLM中高效推理的更受控的研究。我们的数据、代码和仓库可在https://github.com/usail-hkust/HRBench获得。

🔬 方法详解

问题定义:现有混合推理LLM的自适应思维模式选择方法缺乏统一的评估标准,导致难以公平比较不同方法在推理效率和答案质量之间的权衡。不同研究通常采用不同的模型、数据集和实现细节,使得结论难以推广和复现。因此,需要一个统一的评估框架来系统性地研究各种思维模式切换策略。

核心思路:HRBench的核心思路是构建一个统一的评估框架,该框架涵盖了多种思维模式切换策略和训练方式,并使用相同的模型、数据集和评估指标。通过控制变量,可以更清晰地了解不同策略的优缺点,以及它们在不同场景下的适用性。此外,HRBench还提供参考实现和评估平台,方便研究人员进行更可控的研究。

技术框架:HRBench的整体框架包含以下几个主要组成部分: 1. 切换策略族:包括基于提示的选择、外部路由和推测执行三种策略。 2. 训练方式:包括免训练、SFT、离线RL和在线RL四种训练方式。 3. LLM模型:涵盖了从Qwen3.5-2B到Kimi-K2.5-1.1T的6个模型。 4. 推理基准:包括数学、科学和代码等5个推理基准。 5. 评估指标:包括准确率、token成本等指标。

关键创新:HRBench的关键创新在于其统一的评估框架,它允许研究人员在相同的条件下比较不同的思维模式切换策略。通过系统性地研究不同策略在不同训练方式、模型规模和任务领域下的表现,可以更深入地了解它们的优缺点和适用性。此外,HRBench还提供参考实现和评估平台,方便研究人员进行更可控的研究。

关键设计:HRBench的关键设计包括: 1. 受控的评估设置:通过组合不同的切换策略族和训练方式,HRBench创建了12种受控的评估设置。 2. 统一的pipeline:HRBench在同一pipeline中重新实现了12+种具有代表性的先前方法,确保了评估的公平性。 3. 多样的评估指标:HRBench使用准确率和token成本等多种指标来评估不同策略的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HRBench的实验结果表明,不同的思维模式切换策略在有效性和效率之间存在不同的权衡。基于提示的方法通常提供良好的token-准确率权衡,路由方法提供更稳定的成本降低,而推测方法倾向于以更高的token成本提高准确率。此外,实验还发现,训练方式对策略的影响不同,并且首选策略随模型规模和任务领域而变化。例如,对于小模型,基于提示的方法可能更有效,而对于大模型,推测方法可能更适合。

🎯 应用场景

HRBench的研究成果可应用于各种需要高效推理的场景,例如智能助手、自动驾驶、金融分析等。通过选择合适的思维模式切换策略,可以在保证答案质量的前提下,降低推理成本,提高系统的效率。此外,HRBench还可以帮助研究人员更好地理解混合推理LLM的工作原理,从而开发出更有效的推理方法。

📄 摘要(原文)

Hybrid-reasoning large language models (LLMs) expose explicit controls over reasoning effort, allowing users or systems to trade off answer quality against inference cost. However, existing methods for adaptive thinking-mode selection are typically evaluated under different models, datasets, and implementation assumptions, making it difficult to compare their practical behavior. We introduce HRBench, a unified evaluation framework for studying thinking-mode switching in hybrid-reasoning LLMs. HRBench organizes the design space along two axes: three switching strategy families, prompt-based selection, external routing, and speculative execution, and four training regimes, training-free, SFT, offline and online RL, yielding 12 controlled evaluation settings. We evaluate these settings across 6 LLMs, from Qwen3.5-2B to Kimi-K2.5-1.1T, and 5 reasoning benchmarks covering mathematics, science, and code, while reimplementing 12+ representative prior methods within the same pipeline. Our analysis characterizes how different switching strategies occupy distinct effectiveness-efficiency trade-off regions: prompt-based methods often provide favorable token-accuracy trade-offs, routing methods offer more stable cost reduction, and speculative methods tend to improve accuracy at higher token cost. We further find that training affects strategies differently, and that the preferred strategy varies with model scale and task domain. HRBench provides reference implementations and a unified evaluation platform to support more controlled research on efficient reasoning in hybrid-reasoning LLMs. Our data, code and repository are available at https://github.com/usail-hkust/HRBench.