CIRF: Tokenizing Chain-of-Thoughts into Reusable Functional Units for Efficient Latent Reasoning in Large Language Models

📄 arXiv: 2605.28292v1 📥 PDF

作者: Yukyung Lee, Yumeng Shen, Jinhyeong Park, Hyein Yang, Jun-Hyung Park

分类: cs.CL

发布日期: 2026-05-27

备注: 17 pages, 7 figures


💡 一句话要点

CIRF将思维链分解为可复用功能单元,提升大语言模型潜在推理效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 思维链 隐式推理 功能单元 推理效率

📋 核心要点

  1. 现有隐式思维链方法与显式推理过程对齐不足,且难以适应不同复杂度的推理任务。
  2. CIRF将显式思维链分解为可复用的功能单元,模型通过生成功能令牌序列进行推理。
  3. 实验表明,CIRF在准确率和推理延迟之间取得了更好的平衡,并构建了可解释的功能令牌。

📝 摘要(中文)

隐式思维链(CoT)通过内化显式推理过程来降低大语言模型的推理成本。然而,现有方法通常缺乏与显式推理的对齐,并且难以适应不同复杂度的示例。本文提出了CIRF(Chain-of-thoughts Into Reusable Functional units),一个隐式CoT框架,它将推理过程表示为离散功能令牌的动态序列。CIRF为显式CoT轨迹中每个语义连贯的推理单元分配一个功能令牌。然后,对模型进行微调,以自回归地生成功能令牌及其可选结果,最后生成最终答案。这种设计使潜在推理与功能单元序列对齐,从而促进并行训练、显式推理对齐和自适应推理。在数学、符号和常识推理基准上的大量实验表明,与最先进的隐式CoT方法相比,CIRF提供了良好的准确率-延迟权衡。进一步的分析表明,CIRF构建了不同的、可解释的功能令牌,从而带来一致的性能提升。

🔬 方法详解

问题定义:现有隐式思维链方法虽然降低了大语言模型的推理成本,但存在两个主要痛点:一是与显式思维链的推理过程对齐不足,导致模型难以学习到正确的推理逻辑;二是模型难以根据问题的复杂度自适应地调整推理过程,导致在复杂问题上表现不佳。

核心思路:CIRF的核心思路是将显式思维链分解为一系列可复用的功能单元,每个功能单元对应一个语义连贯的推理步骤。模型通过自回归地生成这些功能单元的令牌序列来完成推理,从而将隐式推理过程与显式推理过程对齐。这种设计使得模型可以更好地学习到推理逻辑,并且可以根据问题的复杂度动态地调整推理过程。

技术框架:CIRF框架包含以下几个主要步骤:1) 对显式思维链数据进行分析,将每个推理步骤抽象为一个功能单元,并为每个功能单元分配一个唯一的功能令牌;2) 使用功能令牌序列来表示显式思维链,并将原始输入和最终答案作为监督信号;3) 对大语言模型进行微调,使其能够自回归地生成功能令牌序列,并预测每个功能令牌的结果(可选);4) 在推理阶段,模型根据输入生成功能令牌序列,并根据序列中的功能单元执行相应的推理步骤,最终得到答案。

关键创新:CIRF的关键创新在于将显式思维链分解为可复用的功能单元,并使用功能令牌序列来表示推理过程。这种方法使得隐式推理过程与显式推理过程对齐,从而提高了模型的推理能力和可解释性。此外,CIRF还允许模型根据问题的复杂度动态地调整推理过程,从而提高了模型的鲁棒性。

关键设计:CIRF的关键设计包括:1) 功能单元的划分标准:论文采用语义连贯性作为划分功能单元的标准,确保每个功能单元都包含一个完整的推理步骤;2) 功能令牌的表示方式:论文使用唯一的令牌来表示每个功能单元,使得模型可以区分不同的推理步骤;3) 损失函数的设计:论文使用交叉熵损失函数来训练模型生成正确的功能令牌序列,并使用均方误差损失函数来训练模型预测功能令牌的结果(如果存在)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CIRF在数学、符号和常识推理基准上均取得了显著的性能提升。例如,在某些基准上,CIRF的准确率超过了现有最先进的隐式CoT方法,同时推理延迟也更低。此外,实验还表明,CIRF构建的功能令牌具有良好的可解释性,可以帮助人们理解模型的推理过程。

🎯 应用场景

CIRF框架可应用于各种需要复杂推理的场景,例如数学问题求解、代码生成、知识图谱推理等。通过将推理过程分解为可复用的功能单元,CIRF可以提高大语言模型的推理效率和可解释性,从而使其在实际应用中更具价值。此外,CIRF还可以作为一种通用的推理框架,与其他技术相结合,进一步提升大语言模型的性能。

📄 摘要(原文)

Implicit Chain-of-Thought (CoT) reduces the inference cost of large language models by internalizing the explicit rationales. However, existing approaches typically lack alignment with explicit rationales and adaptivity to example complexity. In this work, we propose CIRF (\textit{\underline{C}hain-of-thoughts \underline{I}nto \underline{R}eusable \underline{F}unctional units}), an implicit CoT framework that performs reasoning as a dynamic sequence of discrete functional tokens. CIRF assigns a functional token to each semantically coherent reasoning unit in explicit CoT traces. The model is then fine-tuned to autoregressively generate functional tokens and their optional results, followed by the final answer. This design aligns latent reasoning with a sequence of functional units, facilitating parallel training, explicit rationale alignment, and adaptive reasoning. Extensive experiments on mathematical, symbolic, and commonsense reasoning benchmarks show that CIRF provides a favorable accuracy-latency trade-off compared with state-of-the-art implicit CoT methods. Further analyses demonstrate that CIRF constructs distinct, interpretable functional tokens, leading to consistent performance improvements.