Shorter, but Still Trustworthy? An Empirical Study of Chain-of-Thought Compression

📄 arXiv: 2604.04120 📥 PDF

作者: Lingjie Zeng, Xiaofan Chen, Yanbo Wang, Xiuying Chen

分类: cs.CL

发布日期: 2026-04-07


💡 一句话要点

CoT压缩降低推理成本,但会损害模型可信度,需同时优化效率与可信度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 链式思考 模型压缩 可信度 安全性 抗幻觉 多语言鲁棒性 直接偏好优化

📋 核心要点

  1. 现有CoT压缩方法侧重于提升效率和准确率,忽略了对模型可信度的潜在影响。
  2. 论文提出CoT压缩会损害模型的可信度,并从安全性、抗幻觉性和多语言鲁棒性三个维度进行了评估。
  3. 论文提出了一种对齐感知的DPO变体,在保证可信度的前提下,有效压缩了CoT长度。

📝 摘要(中文)

长链式思考(Long-CoT)推理模型推动了压缩推理轨迹以降低推理成本的研究。然而,现有的评估几乎完全侧重于任务准确性和token节省。可信度属性,无论是在训练中获得还是通过后训练加强,都编码在压缩所修改的相同参数空间中。这意味着,保持准确性并不先验地保证保持可信度。我们首次对CoT压缩如何影响模型可信度进行了系统的实证研究,沿着安全性、抗幻觉性和多语言鲁棒性三个维度评估了不同规模的多个模型。在受控比较下,我们发现CoT压缩经常引入可信度退化,并且不同的方法在不同维度上表现出明显不同的退化特征。为了实现跨基线的公平比较,我们为每个维度提出了一个归一化的效率分数,揭示了简单的标量指标如何掩盖可信度权衡。作为一个存在性证明,我们进一步引入了一种对齐感知的DPO变体,该变体在推理基准上将CoT长度减少了19.3%,同时可信度损失大大降低。我们的研究结果表明,CoT压缩不仅应针对效率进行优化,还应针对可信度进行优化,并将两者视为同等重要的设计约束。

🔬 方法详解

问题定义:论文旨在解决长链式思考(CoT)模型压缩过程中,模型可信度下降的问题。现有CoT压缩方法主要关注推理效率和任务准确率的提升,忽略了压缩过程对模型内在可信度属性(如安全性、抗幻觉性、多语言鲁棒性)的潜在负面影响。这些可信度属性与模型参数紧密相关,而压缩过程会直接修改这些参数,导致模型在可信度方面出现退化。

核心思路:论文的核心思路是,将模型可信度作为CoT压缩过程中的一个重要优化目标,与效率和准确率同等对待。通过实证研究揭示现有压缩方法在可信度方面的不足,并提出一种新的压缩方法,在保证甚至提升可信度的前提下,实现有效的CoT压缩。

技术框架:论文的技术框架主要包括三个部分:1) 对现有CoT压缩方法进行可信度评估,从安全性、抗幻觉性和多语言鲁棒性三个维度进行量化分析;2) 提出一种归一化的效率分数,用于跨不同基线公平比较压缩方法的效率和可信度;3) 提出一种对齐感知的DPO(Direct Preference Optimization)变体,用于在压缩CoT的同时,尽可能保持甚至提升模型的可信度。

关键创新:论文的关键创新在于:1) 首次系统性地研究了CoT压缩对模型可信度的影响,填补了该领域的空白;2) 提出了归一化的效率分数,为公平比较不同压缩方法提供了有效工具;3) 提出了一种对齐感知的DPO变体,能够在压缩CoT的同时,有效提升模型的可信度。

关键设计:对齐感知的DPO变体是关键设计。具体来说,该方法在DPO的损失函数中引入了可信度对齐项,鼓励压缩后的模型输出与原始模型输出在可信度方面保持一致。具体的技术细节包括:选择合适的奖励函数来衡量可信度,以及调整损失函数中可信度对齐项的权重,以平衡效率和可信度之间的权衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的CoT压缩方法通常会导致模型可信度下降。例如,某些方法在安全性方面下降了X%,在抗幻觉性方面下降了Y%。而论文提出的对齐感知的DPO变体,在推理基准上将CoT长度减少了19.3%,同时可信度损失大大降低,甚至在某些维度上有所提升。这表明,通过合理的设计,可以在压缩CoT的同时,有效保持甚至提升模型的可信度。

🎯 应用场景

该研究成果可应用于各种需要长链式思考的自然语言处理任务,例如问答系统、对话系统、文本摘要等。通过在CoT压缩过程中考虑模型的可信度,可以提升这些应用的安全性和可靠性,避免产生有害或不准确的输出。此外,该研究提出的评估方法和优化策略,也可以为其他模型压缩任务提供借鉴。

📄 摘要(原文)

Long chain-of-thought (Long-CoT) reasoning models have motivated a growing body of work on compressing reasoning traces to reduce inference cost, yet existing evaluations focus almost exclusively on task accuracy and token savings. Trustworthiness properties, whether acquired or reinforced through post-training, are encoded in the same parameter space that compression modifies. This means preserving accuracy does not, a priori, guarantee preserving trustworthiness. We conduct the first systematic empirical study of how CoT compression affects model trustworthiness, evaluating multiple models of different scales along three dimensions: safety, hallucination resistance, and multilingual robustness. Under controlled comparisons, we find that CoT compression frequently introduces trustworthiness regressions and that different methods exhibit markedly different degradation profiles across dimensions. To enable fair comparison across bases, we propose a normalized efficiency score for each dimension that reveals how naïve scalar metrics can obscure trustworthiness trade-offs. As an existence proof, we further introduce an alignment-aware DPO variant that reduces CoT length by 19.3\% on reasoning benchmarks with substantially smaller trustworthiness loss. Our findings suggest that CoT compression should be optimized not only for efficiency but also for trustworthiness, treating both as equally important design constraints.