Reasoning Structure of Large Language Models

📄 arXiv: 2606.03883v1 📥 PDF

作者: Frédéric Berdoz, Luca A. Lanzendörfer, Fabian Farestam, Roger Wattenhofer

分类: cs.AI, cs.LG

发布日期: 2026-06-02

备注: Accepted at ICML 2026 and presented at the ICLR 2026 workshop on LLM reasoning


💡 一句话要点

提出可扩展的逻辑推理基准以分析大型语言模型的推理结构

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理结构 逻辑难题 推理效率 结构化分析 性能评估

📋 核心要点

  1. 现有的评估方法往往忽视了推理结构的多样性,导致相同的分数掩盖了不同的推理过程。
  2. 本文提出了一种新的基准和管道,将非结构化的推理轨迹转化为可验证的推理图,从而实现推理的结构化分析。
  3. 实验结果表明,结构测量能够有效区分模型在不同难度推理任务中的表现,提供了新的诊断工具。

📝 摘要(中文)

大型推理模型(LRMs)通常通过最终答案准确率或标记计数等指标进行评估。然而,相同的分数可能掩盖了根本不同的推理结构。为了解决这一局限性,本文引入了一种可扩展的LRM逻辑难题基准,并提出了一种将非结构化轨迹转换为可验证的推理图的方法。这种方法将推理转化为一个结构化、可测量的对象,其拓扑结构可以进行定量分析。基于此,本文定义了一种推理效率指标,用于量化模型逻辑流的集中程度。对开源推理模型的分析表明,结构测量能够区分标记计数和准确率所混淆的行为,为诊断失败模式和比较推理如何随着难题难度而变化提供了实用工具。

🔬 方法详解

问题定义:本文旨在解决现有大型推理模型评估方法的局限性,特别是相同的评估分数可能掩盖不同的推理结构和过程。

核心思路:通过引入可扩展的逻辑推理基准和将非结构化轨迹转化为推理图的方法,本文实现了对推理过程的结构化和量化分析。

技术框架:整体架构包括逻辑难题基准的构建、非结构化轨迹的收集与转换、推理图的生成以及推理效率的量化分析。主要模块包括数据收集、图构建和性能评估。

关键创新:本文的主要创新在于定义了推理效率指标,能够量化模型逻辑流的集中程度,从而提供比传统评估方法更深入的分析。

关键设计:在推理图的构建中,采用了特定的参数设置和损失函数,以确保生成的图能够准确反映模型的推理过程。

📊 实验亮点

实验结果显示,结构测量能够有效区分不同推理模型在逻辑难题上的表现,尤其是在难度较高的任务中,推理效率指标的引入使得模型的逻辑流集中度得到了显著提升,提供了新的性能评估视角。

🎯 应用场景

该研究的潜在应用领域包括教育、游戏设计和人工智能系统的开发,尤其是在需要逻辑推理和决策支持的场景中。通过提供更深入的推理分析工具,研究可以帮助开发更智能的系统,提升其在复杂任务中的表现。

📄 摘要(原文)

Large reasoning models (LRMs) are often evaluated using metrics such as final-answer accuracy or token count. However, identical scores on these metrics can hide fundamentally different reasoning structures. To address this limitation, we introduce a scalable LRM benchmark of logic puzzles and a pipeline that converts unstructured traces into verifiable reasoning graphs of claims and dependencies. This turns reasoning into a structured, measurable object whose topology can be quantitatively analyzed. Building on this, we define a reasoning efficiency metric that quantifies how concentrated the model's logical flow is. Our analysis on open-source reasoning models shows that structural measurements separate behaviors that token count and accuracy conflate, providing a practical tool for diagnosing failure modes and comparing how reasoning scales with puzzle difficulty.