SliceGraph: Mapping Process Isomers in Multi-Run Chain-of-Thought Reasoning

📄 arXiv: 2605.14619v1 📥 PDF

作者: Kang Chen, Junjie Nian, Yixin Cao, Yugang Jiang

分类: cs.AI

发布日期: 2026-05-14


💡 一句话要点

提出SliceGraph以分析多轮CoT推理中过程同分异构体,揭示中间计算共享、分裂和重组的模式。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链推理 过程几何 知识图谱 模型可解释性 多轮推理

📋 核心要点

  1. 现有方法忽略了多轮CoT推理中中间计算过程的复杂性,仅关注最终答案的聚合。
  2. 提出SliceGraph,通过分析CoT切片之间的关系,揭示推理过程中共享、分裂和重组的模式。
  3. 实验表明,即使最终答案相同,推理过程也可能存在多种不同的“过程同分异构体”,且路由族在价值景观中具有专门化的核心足迹。

📝 摘要(中文)

多轮思维链(Chain-of-Thought, CoT)推理通常被简化为最终答案的聚合,忽略了采样轨迹在中间计算过程中的共享、分裂和重组。本文提出SliceGraph,这是一种后验的问题-模型-单元图,通过CoT切片之间稀疏激活-键Jaccard相似度的互k近邻构建。SliceGraph被视为过程几何的测量对象,而非解码程序。在数学和科学基准测试中,对来自三个主要4B/8B模型的CoT集成进行采样,盲注标注支持将SliceGraph的双连通分量作为共享推理状态单元,并将过程族作为族内策略一致的路由单元。在954个问题-模型单元的85.5%中,共享相同归一化答案的正确CoT分裂成多个过程族;在至少有两个此类运行的单元中,平均76.6%的运行对是跨族的。我们将这种相同答案、族发散的正确轨迹称为过程同分异构体。标签种子奖励场提供了单独的价值景观层:与成功相关的区域通常分裂成不连通的高价值核心,并且路由族专门针对这些核心足迹,而不是简单地相互复制。类型化状态转换分析进一步表明,在匹配的零控制下,过程族以不同的转换核导航相同的图谱。表征消融、跨架构复制和两次跨尺度复制支持路由族支架的鲁棒性,表明最终答案聚合忽略了这种结构化的多路由过程几何。

🔬 方法详解

问题定义:现有方法在处理多轮CoT推理时,通常只关注最终答案的正确性,而忽略了推理过程中各个步骤之间的联系以及不同推理路径之间的差异。这种简化处理方式无法充分理解模型的推理过程,也无法解释为什么不同的推理路径可以得到相同的正确答案。现有方法的痛点在于缺乏对中间推理步骤的细粒度分析,无法揭示推理过程中的复杂模式。

核心思路:本文的核心思路是将多轮CoT推理过程视为一个复杂的几何结构,通过构建SliceGraph来捕捉推理过程中不同切片之间的关系。SliceGraph通过分析CoT切片之间的激活-键Jaccard相似度,将相似的切片连接起来,从而形成一个图结构。通过分析这个图结构,可以揭示推理过程中共享、分裂和重组的模式,从而更好地理解模型的推理过程。

技术框架:SliceGraph的构建主要包括以下几个步骤:1) 对多轮CoT推理过程进行切片,得到一系列CoT切片;2) 计算CoT切片之间的稀疏激活-键Jaccard相似度;3) 基于互k近邻算法,将相似的CoT切片连接起来,构建SliceGraph;4) 对SliceGraph进行分析,例如识别双连通分量和过程族。此外,论文还引入了标签种子奖励场,用于评估不同推理路径的价值。

关键创新:SliceGraph的关键创新在于它提供了一种新的视角来分析多轮CoT推理过程,将推理过程视为一个几何结构,并通过图结构来捕捉推理过程中不同步骤之间的关系。与现有方法只关注最终答案不同,SliceGraph关注的是推理过程的中间步骤,从而可以更深入地理解模型的推理过程。此外,过程同分异构体的概念也是一个重要的创新,它表明即使最终答案相同,推理过程也可能存在多种不同的路径。

关键设计:SliceGraph的关键设计包括:1) 使用稀疏激活-键Jaccard相似度来衡量CoT切片之间的相似度,这种相似度度量方式可以有效地捕捉切片之间的语义关系;2) 使用互k近邻算法来构建SliceGraph,这种算法可以保证图结构的连通性和稳定性;3) 引入标签种子奖励场,用于评估不同推理路径的价值,从而可以更好地理解模型的推理策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在85.5%的问题-模型单元中,共享相同归一化答案的正确CoT分裂成多个过程族,平均76.6%的运行对是跨族的,揭示了过程同分异构体的普遍存在。此外,实验还表明,路由族在价值景观中具有专门化的核心足迹,表明不同的推理路径具有不同的价值。

🎯 应用场景

该研究成果可应用于提升大型语言模型的推理能力和可解释性。通过分析SliceGraph,可以更好地理解模型的推理过程,发现潜在的推理缺陷,并针对性地进行改进。此外,该研究还可以用于开发更有效的CoT提示策略,引导模型生成更可靠的推理路径。在教育领域,该方法可以帮助学生理解复杂的概念,并提供个性化的学习路径。

📄 摘要(原文)

Multi-run chain-of-thought reasoning is usually collapsed to final-answer aggregates, which discard howsampled trajectories share, split, and rejoin through intermediate computation. We propose SliceGraph, a post-hoc problem-model-cell graph built by mutual-kNN over sparse activation-key Jaccard similarity between CoT slices, and treat it as a measurement object for process geometry rather than as a decoding program. Across sampled CoT ensembles from three primary 4B/8B models on math and science benchmarks, blinded annotation supports SliceGraph biconnected components as shared reasoning-state units and process families as within-family strategy-coherent route units. In 85.5% of 954 problem-model cells, correct CoTs sharing the same normalized answer split into multiple process families; among cells with at least two such runs, 76.6% of run pairs are cross-family on average. We call such same-answer, family-divergent correct trajectories process isomers. A label-seeded reward field provides a separate value-landscape layer: success-associated regions often split into disconnected high-value cores, and route families specialize over these core footprints rather than merely duplicating one another. A typed-state transition analysis further shows that process families navigate the same atlas with distinct transition kernels under matched null controls. Representation ablations, a cross-architecture replication, and two cross-scale replications support the robustness of the route-family scaffold, showing that final-answer aggregation overlooks this structured multi-route process geometry.