TRiMS: Real-Time Tracking of Minimal Sufficient Length for Efficient Reasoning via RL

作者: Tingcheng Bian, Jinchang Luo, Mingquan Cheng, Jinyu Zhang, Xiaoling Xia, Ni Li, Yan Tao, Haiwei Wang

分类: cs.CL

发布日期: 2026-03-18

备注: 8 pages (main), 21 pages total including appendix, 18 figures.Code will be released

💡 一句话要点

TRiMS：通过强化学习实时追踪最小充分长度，实现高效推理

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 链式思考 推理压缩 最小充分长度 语言模型 计算效率

📋 核心要点

现有CoT方法推理过程冗长，计算成本高昂，缺乏对推理长度的有效控制。
TRiMS通过强化学习，结合MSL估计，动态调整推理长度，逼近理论最优的最小充分长度。
实验表明，TRiMS在显著减少token数量的同时，还能保持甚至略微提升推理准确性。

📝 摘要（中文）

大型语言模型通过长链式思考（CoT）序列在复杂推理方面取得了突破。然而，这常常导致严重的推理膨胀，造成大量的计算冗余。为了最大化每个Token的智能，我们引入了一个理论指标，MSL（最小充分长度）。MSL严格地表征了保持答案正确性的最短推理长度。我们提供了一个基于独立采样序列的递归定义，并证明了其极限的存在，从而为推理链压缩建立了第一个可测量的下界。通过分析主流的CoT压缩策略，我们确定了使模型能够接近MSL的关键结构因素。基于这些见解，我们提出了TRiMS，它在训练过程中采用GRPO算法，并结合基于MSL的估计，同时通过动态批次聚合和使用批次级标准差的优势计算来减轻训练过程中的不稳定性。TRiMS实现了超过80%的CoT token减少，并在所有基准测试中略微提高了准确性。

🔬 方法详解

问题定义：现有的大型语言模型在进行复杂推理时，依赖于长链式思考（Chain-of-Thought, CoT）方法。虽然CoT提高了推理能力，但同时也带来了显著的计算冗余，即推理链条过长，包含了许多不必要的token。这导致了更高的计算成本和更慢的推理速度。因此，如何在保证推理正确性的前提下，尽可能地缩短推理链条，减少计算冗余，是一个亟待解决的问题。

核心思路：TRiMS的核心思路是学习一个策略，该策略能够动态地控制推理过程的长度，使其逼近一个理论上的最优值，即最小充分长度（Minimal Sufficient Length, MSL）。MSL被定义为保持答案正确性的最短推理长度。通过强化学习，模型可以学习到在推理过程中何时停止生成token，从而避免生成冗余信息。这种方法旨在最大化每个token所包含的信息量，提高推理效率。

技术框架：TRiMS的整体框架包括以下几个主要组成部分：1) MSL估计器：用于估计当前状态下的MSL值。2) GRPO（Gradient Ratio Policy Optimization）算法：一种强化学习算法，用于训练策略网络，使其能够根据MSL估计值动态调整推理长度。3) 动态批次聚合：一种训练技巧，用于稳定训练过程，避免出现不稳定性。4) 优势计算：使用批次级标准差来计算优势函数，进一步提高训练的稳定性。整个流程是，模型首先进行推理，然后使用MSL估计器估计MSL，GRPO算法根据MSL调整策略，最后通过动态批次聚合和优势计算来稳定训练。

关键创新：TRiMS的关键创新在于以下几个方面：1) 提出了MSL的概念，并给出了其递归定义，为推理链压缩提供了一个理论下界。2) 将强化学习应用于推理长度的控制，使得模型能够动态地调整推理过程，逼近MSL。3) 提出了动态批次聚合和基于批次级标准差的优势计算方法，有效地解决了训练过程中的不稳定性问题。与现有方法相比，TRiMS能够更有效地减少推理链的长度，同时保持甚至提高推理准确性。

关键设计：TRiMS的关键设计包括：1) MSL估计器的具体实现方式，例如可以使用一个小型神经网络来预测MSL值。2) GRPO算法的具体参数设置，例如学习率、折扣因子等。3) 动态批次聚合的具体策略，例如如何选择批次大小、如何进行批次聚合等。4) 优势函数的具体计算方式，例如如何使用批次级标准差来估计优势函数。此外，损失函数的设计也至关重要，需要平衡推理准确性和推理长度之间的关系。

🖼️ 关键图片

📊 实验亮点

TRiMS在多个基准测试中取得了显著的成果。实验结果表明，TRiMS能够实现超过80%的CoT token减少，同时在所有基准测试中略微提高了准确性。这意味着TRiMS能够在显著降低计算成本的同时，保持甚至提升模型的推理能力。这些结果充分证明了TRiMS的有效性和优越性。

🎯 应用场景

TRiMS具有广泛的应用前景，可以应用于各种需要复杂推理的场景，例如问答系统、对话系统、知识图谱推理等。通过减少推理过程中的计算冗余，TRiMS可以显著提高推理效率，降低计算成本，使得大型语言模型能够更高效地服务于各种实际应用。此外，TRiMS还可以促进对语言模型推理过程的理解，为未来的模型设计提供新的思路。

📄 摘要（原文）

Large language models achieve breakthroughs in complex reasoning via long chain-of-thought sequences. However, this often leads to severe reasoning inflation, causing substantial computational redundancy. To maximize Intelligence per Token, we introduce a theoretical metric, MSL-Minimal Sufficient Length. MSL rigorously characterizes the shortest reasoning length that preserves answer correctness. We provide a recursive definition based on independently sampled sequences and prove the existence of its limit, establishing the first measurable lower bound for reasoning-chain compression. Building on an analysis of mainstream CoT compression strategies, we identify key structural factors enabling a model to approach MSL. Based on these insights, we propose TRiMS which employs the GRPO algorithm in conjunction with MSL-based estimation during training, while mitigating instabilities during the training process through dynamic batch aggregation and advantage computation using batch-level standard deviation. TRiMS achieves over 80% CoT token reduction with a minor accuracy boost across all benchmarks.

TRiMS: Real-Time Tracking of Minimal Sufficient Length for Efficient Reasoning via RL

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理