ReEfBench: Quantifying the Reasoning Efficiency of LLMs
作者: Zhizhang Fu, Yuancheng Gu, Chenkai Hu, Hanmeng Liu, Yue Zhang
分类: cs.AI
发布日期: 2026-01-07
💡 一句话要点
提出ReEfBench框架以量化大型语言模型的推理效率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理效率 链式思维 神经符号框架 行为原型 蒸馏训练 模型评估
📋 核心要点
- 当前链式思维评估方法无法有效区分推理能力与冗长表达之间的关系,限制了对LLMs推理效率的理解。
- 本文提出了一种新颖的神经符号框架,旨在通过过程中心的评估方法全面分析LLMs的推理能力。
- 研究发现,延长的令牌生成并非深度推理的必要条件,同时混合训练数据可能导致模型性能的提前饱和。
📝 摘要(中文)
测试时扩展使大型语言模型(LLMs)能够处理复杂推理,但当前的链式思维(CoT)评估方法的局限性使得我们无法确定性能提升是否源于真正的推理能力。为此,本文提出了一种新颖的神经符号框架,用于非侵入性、全面的过程中心评估推理能力。通过这一框架,我们识别出四种不同的行为原型并诊断失败模式。此外,我们还考察了推理模式、训练策略和模型规模的影响。分析结果表明,延长的令牌生成并不是深度推理的先决条件,同时揭示了关键限制:在训练中混合长短CoT数据会导致提前饱和和崩溃,而蒸馏到更小模型中虽然捕捉了行为长度,但由于内在能力限制未能复制逻辑有效性。
🔬 方法详解
问题定义:本文旨在解决当前链式思维评估方法的局限性,无法有效区分LLMs的真实推理能力与冗长表达的影响。
核心思路:提出一种神经符号框架,通过过程中心的评估方法,全面分析推理过程,识别行为原型和失败模式。
技术框架:框架包括数据收集、模型训练、推理评估和行为分析四个主要模块,确保评估过程的全面性和非侵入性。
关键创新:识别出四种行为原型并诊断失败模式,揭示了混合长短CoT数据的风险,以及蒸馏模型的局限性,提供了新的评估视角。
关键设计:在训练过程中,采用不同的推理模式和训练策略,设置了特定的损失函数以优化模型的推理能力,同时关注模型规模对推理效率的影响。
📊 实验亮点
实验结果显示,提出的框架能够有效识别LLMs的推理能力,且在不同推理模式下,模型的表现有显著差异。特别是,混合长短CoT数据的训练导致了性能的提前饱和,提供了新的见解和改进方向。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、智能问答系统和教育技术等。通过量化推理效率,研究能够帮助开发更高效的LLMs,提升其在复杂任务中的表现,具有重要的实际价值和未来影响。
📄 摘要(原文)
Test-time scaling has enabled Large Language Models (LLMs) to tackle complex reasoning, yet the limitations of current Chain-of-Thought (CoT) evaluation obscures whether performance gains stem from genuine reasoning or mere verbosity. To address this, (1) we propose a novel neuro-symbolic framework for the non-intrusive, comprehensive process-centric evaluation of reasoning. (2) Through this lens, we identify four distinct behavioral prototypes and diagnose the failure modes. (3) We examine the impact of inference mode, training strategy, and model scale. Our analysis reveals that extended token generation is not a prerequisite for deep reasoning. Furthermore, we reveal critical constraints: mixing long and short CoT data in training risks in premature saturation and collapse, while distillation into smaller models captures behavioral length but fails to replicate logical efficacy due to intrinsic capacity limits.