Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

作者: Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin

分类: cs.LG, cs.AI

发布日期: 2026-02-10

备注: IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2026

💡 一句话要点

提出FGO算法以解决长链推理压缩问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 链推理 压缩算法 强化学习 组策略优化 大型语言模型

📋 核心要点

现有的大型语言模型在生成链推理时常常过于冗长，导致计算资源浪费和延迟增加。
本文提出的FGO算法通过细分响应并根据长度和熵进行加权，优化了链推理的压缩过程。
实验结果显示，FGO在多个基准上实现了高效的链推理压缩，且未降低模型性能。

📝 摘要（中文）

大型语言模型（LLMs）常常生成冗长的链推理（CoT），这不仅增加了计算成本和延迟，还未必带来性能提升。本文提出了一种细粒度组策略优化（FGO）算法，通过细分响应并根据长度和熵分配权重，从而实现有效的CoT压缩。同时，FGO作为组相对策略优化（GRPO）的增强变体，成功解决了GRPO的两个主要局限性：数据利用效率低和熵崩溃。我们在多个推理LLM和基准上评估FGO，包括MATH500、AIME24、AMC23和Minerva。实验结果表明，FGO在不降低性能的情况下实现了高效的CoT压缩，并同时解决了GRPO的关键限制。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在生成链推理时的冗长问题，现有的组相对策略优化（GRPO）方法在数据利用和熵管理上存在不足，导致效率低下。

核心思路：FGO算法通过细粒度的响应细分和动态权重分配，优化了链推理的压缩过程，以提高效率并保持性能。

技术框架：FGO的整体架构包括响应细分模块、权重分配模块和策略优化模块，首先对生成的链推理进行细分，然后根据长度和熵分配权重，最后通过强化学习进行策略优化。

关键创新：FGO的主要创新在于其细粒度的组策略优化方法，解决了GRPO在数据利用和熵崩溃方面的局限，使得链推理压缩更加高效。

关键设计：FGO的设计中，关键参数包括细分的粒度、权重分配的策略，以及使用的损失函数，这些设计确保了在压缩过程中性能的保持。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FGO在MATH500、AIME24、AMC23和Minerva等基准上实现了显著的性能提升，成功压缩链推理，同时保持了模型的推理准确性，展示了其在高效推理中的潜力。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能问答系统和对话生成等。通过优化链推理的生成过程，FGO可以显著提高模型的响应速度和效率，降低计算资源消耗，具有重要的实际价值和广泛的应用前景。

📄 摘要（原文）

Large Language Models (LLMs) often generate unnecessarily verbose Chain-of-Thought (CoT) reasoning that increases computational costs and latency without proportional performance gains. In this paper, we propose \textbf{F}ine-grained \textbf{G}roup policy \textbf{O}ptimization (\textbf{FGO}), a Reinforcement Learning (RL) algorithm that refines group responses by subdividing them and assigning appropriate weights based on length and entropy, thereby enabling effective CoT compression. Meanwhile, as an enhanced variant of Group Relative Policy Optimization (GRPO), FGO successfully addresses two major limitations of the GRPO: inefficient data utilization and entropy collapse. We evaluate FGO on multiple reasoning LLMs and benchmarks, including MATH500, AIME24, AMC23, and Minerva. Experimental results show that FGO achieves efficient CoT compression without degrading performance, and simultaneously resolves the key limitations of GRPO.

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理