ReasonOps: Operator Segmentation for LLM Reasoning Traces
作者: Daniel Lee, Owen Queen, James Zou
分类: cs.AI, cs.CL
发布日期: 2026-05-28
💡 一句话要点
ReasonOps:提出一种无监督的LLM推理轨迹算子分割方法,用于分析和理解LLM的推理过程。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM推理 思维链 算子分割 无监督学习 模型分析 可解释性 推理轨迹
📋 核心要点
- 现有方法在分析LLM思维链轨迹时存在局限性,无法有效捕捉跨领域和模型的推理特征。
- ReasonOps通过无监督聚类句子初始token,提取出7种通用的推理算子,用于描述LLM的推理过程。
- 实验表明,ReasonOps能够有效识别模型家族,预测答案正确性,并进行早期质量估计,性能优于基线。
📝 摘要(中文)
大型推理模型的思维链(Chain-of-Thought)轨迹可能包含数万个token,但我们缺乏描述其内部结构的词汇。以往分析思维链轨迹的方法要么过于僵化,要么不够具有表达力,无法捕捉跨领域和模型的特征。为了解决这个问题,我们开发了ReasonOps,这是一种无监督、具有表达力的方法,用于注释思维链轨迹,提供简洁通用的算子。我们使用ReasonOps分析了来自12个思维LLM的44662条轨迹,这些模型跨越6个家族,涵盖8个推理基准,发现它们共享一个共同的组合结构:7个重复出现的推理算子——话语层面的动作,如回溯、推断和假设——这些算子从句子初始3-token枢轴的无监督聚类中涌现。这些算子出现在每个模型家族和基准领域中,三个独立的LLM评判员以70-76%的准确率对保留样本进行分类证实了这一点。我们分析了算子在简单与困难问题上的结构,揭示了反思性算子在困难问题上更有帮助,但在简单问题上会损害性能。算子序列具有高度的模型识别性:仅在算子分布上训练的分类器以宏平均AUC恢复了源模型,揭示了每个模型家族都有独特的推理指纹。结构算子特征能够很好地预测问题内的答案正确性,远高于基线。基于这些算子构建的分类器达到了WP-AUC为0.65,在AIME上达到了0.71。ReasonOps进一步实现了在轨迹完成之前进行早期质量估计:我们仅使用50%的轨迹即可预测WP-AUC为0.63。ReasonOps流程是无监督且无需注释的,能够深入了解LLM推理轨迹,并在模型识别和正确性预测方面取得强大的下游结果。
🔬 方法详解
问题定义:现有方法在分析LLM的思维链推理轨迹时,要么过于僵化,无法适应不同模型和领域,要么缺乏足够的表达能力,难以捕捉推理过程中的细微差别。这使得我们难以理解LLM是如何进行推理的,以及如何改进LLM的推理能力。
核心思路:ReasonOps的核心思路是通过无监督学习的方式,从LLM的推理轨迹中自动提取出具有代表性的推理算子。这些算子可以看作是LLM推理过程中的基本操作,例如回溯、推断和假设等。通过分析这些算子的使用情况,我们可以更好地理解LLM的推理过程,并发现不同模型之间的差异。
技术框架:ReasonOps的整体流程如下:1) 收集LLM的推理轨迹;2) 对推理轨迹进行预处理,例如分句和token化;3) 提取每个句子的前3个token作为枢轴;4) 使用无监督聚类算法(例如k-means)对枢轴进行聚类,得到一组推理算子;5) 使用这些算子对推理轨迹进行标注,得到算子序列;6) 分析算子序列的统计特征,例如算子的频率、转移概率等。
关键创新:ReasonOps的关键创新在于提出了一种无监督的、具有表达力的推理算子提取方法。与以往的方法相比,ReasonOps不需要人工标注数据,可以自动适应不同的模型和领域。此外,ReasonOps提取的算子具有良好的可解释性,可以帮助我们更好地理解LLM的推理过程。
关键设计:ReasonOps的关键设计包括:1) 使用句子初始3-token作为枢轴,这可以有效地捕捉句子的语义信息;2) 使用无监督聚类算法对枢轴进行聚类,这可以自动发现具有代表性的推理算子;3) 分析算子序列的统计特征,这可以帮助我们理解LLM的推理过程。
🖼️ 关键图片
📊 实验亮点
ReasonOps在多个推理基准上进行了评估,结果表明其能够有效地识别模型家族,预测答案正确性,并进行早期质量估计。例如,在模型识别任务中,ReasonOps的宏平均AUC达到了0.95。在答案正确性预测任务中,ReasonOps的WP-AUC达到了0.65,在AIME上达到了0.71。此外,ReasonOps还能够在仅使用50%的轨迹的情况下,预测WP-AUC为0.63。
🎯 应用场景
ReasonOps可应用于LLM的推理过程分析、模型诊断、性能优化和可解释性提升。通过分析LLM的推理轨迹,可以发现模型存在的缺陷和不足,并针对性地进行改进。此外,ReasonOps还可以用于构建更可靠、更可信赖的LLM应用,例如智能客服、自动问答等。
📄 摘要(原文)
Chain-of-thought traces from large reasoning models can span tens of thousands of tokens, yet we lack a vocabulary for describing their internal structure. Previous methods developed to analyze chain-of-thought traces are either too rigid or not expressive enough, failing to capture features across domains and models. To remedy this, we develop ReasonOps, an unsupervised, expressive method for annotating chain-of-thought traces, providing succinct universal operators. Using ReasonOps, we analyze 44,662 traces from 12 thinking LLMs spanning 6 families across 8 reasoning benchmarks and discover that they share a common compositional structure: 7 recurring reasoning operators -- discourse-level moves such as backtracking, inferring, and hypothesizing -- that emerge from unsupervised clustering of sentence-initial 3-token pivots. These operators appear across every model family and benchmark domain, confirmed by three independent LLM judges who classify held-out samples at 70 -76% accuracy. We analyze the structure of operators on easy vs. hard problems, revealing that reflective operators are more helpful on hard problems and harm performance on easy problems. Operator sequences are highly model-identifying: a classifier trained on operator distributions alone recovers the source model with macro-AUC, revealing that each model family has a distinctive reasoning fingerprint. Structural operator features predict within-problem answer correctness well above baselines. Classifiers built on these operators reach WP-AUC and on AIME specifically. ReasonOps further enables early quality estimation well before the trace completes: we predict at WP-AUC for only 50% of the trace. The ReasonOps pipeline is unsupervised and annotation-free, enabling deep insights into LLM reasoning traces as well as strong downstream results on model identification and correctness prediction.