Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs
作者: Jinyan Su, Jennifer Healey, Preslav Nakov, Claire Cardie
分类: cs.CL, cs.AI
发布日期: 2025-04-30
💡 一句话要点
研究表明LLM在推理长度上存在校准问题,对简单问题过度思考,对难题思考不足。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理长度 校准问题 偏好优化 实证研究
📋 核心要点
- 现有LLM通常假设更长的推理链能提升性能,但实际效果并不总是如此,有时反而会降低准确性。
- 该研究通过实证分析,揭示了LLM在推理长度上的校准问题,即简单问题过度推理,难题推理不足。
- 实验表明,通过偏好优化算法减少生成长度,可以在保持准确率的同时,显著降低推理长度。
📝 摘要(中文)
大型语言模型(LLM)越来越多地针对长推理进行优化,其假设是更多的推理会带来更好的性能。然而,新出现的证据表明,更长的响应有时会降低准确性,而不是提高准确性。在本文中,我们对推理长度和答案正确性之间的关系进行了系统的实证研究。我们发现,LLM倾向于过度思考简单的问题,产生不必要的长输出,而对较难的问题则思考不足,在最需要的时候未能扩展其推理。这表明模型可能误判了问题的难度,并且未能适当地校准其响应长度。此外,我们研究了使用偏好优化算法减少长度的效果,该算法简单地偏好较短的响应,而不管答案的正确性如何。实验表明,在保持可接受的准确性的同时,可以显著减少生成长度。我们的发现强调了生成长度是推理行为的一个有意义的信号,并激发了对LLM在推理长度适应方面的自我意识的进一步探索。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)通常被设计为能够进行长推理,并假设更长的推理链能够带来更好的性能。然而,实际情况是,LLM在处理不同难度的问题时,推理长度的校准存在问题。具体来说,LLM倾向于对简单问题进行过度思考,产生不必要的长输出,而对较难的问题则思考不足,未能充分扩展其推理过程。这种推理长度与问题难度不匹配的现象,导致了性能下降。
核心思路:该研究的核心思路是通过实证分析,揭示LLM在推理长度上的校准问题,并提出一种基于偏好优化的方法来减少不必要的推理长度。研究人员认为,LLM可能无法准确判断问题的难度,从而导致推理长度的偏差。因此,通过调整LLM的推理长度,使其与问题难度相匹配,可以提高其性能。
技术框架:该研究的技术框架主要包括以下几个步骤:首先,构建一个包含不同难度问题的测试集。然后,使用LLM对测试集中的问题进行推理,并记录其推理长度和答案正确性。接着,分析推理长度和答案正确性之间的关系,以确定LLM是否存在推理长度校准问题。最后,使用偏好优化算法,通过偏好较短的响应来减少LLM的推理长度,并评估其对性能的影响。
关键创新:该研究的关键创新在于发现了LLM在推理长度上的校准问题,并提出了一种基于偏好优化的方法来解决这个问题。与以往的研究不同,该研究关注的是推理长度与问题难度之间的关系,而不是简单地增加推理长度。通过调整推理长度,使其与问题难度相匹配,可以更有效地提高LLM的性能。
关键设计:该研究的关键设计包括以下几个方面:首先,测试集的构建需要包含不同难度的问题,以便能够全面评估LLM的推理长度校准能力。其次,偏好优化算法的设计需要能够有效地减少推理长度,同时保持答案的正确性。具体来说,研究人员使用了一种简单的偏好优化算法,该算法通过对较短的响应给予更高的奖励来实现长度减少。此外,研究人员还对偏好优化算法的参数进行了调整,以获得最佳的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM确实存在推理长度校准问题,即对简单问题过度推理,对难题推理不足。通过使用偏好优化算法减少生成长度,可以在保持可接受的准确性的同时,显著降低推理长度。具体来说,在某些数据集上,推理长度可以减少高达20%,而准确率仅下降不到1%。
🎯 应用场景
该研究成果可应用于提升LLM在各种推理任务中的效率和准确性,例如问答系统、文本摘要、代码生成等。通过优化LLM的推理长度,可以减少计算资源消耗,提高响应速度,并改善用户体验。未来的研究可以进一步探索如何使LLM能够自适应地调整推理长度,从而更好地适应不同难度的问题。
📄 摘要(原文)
Large language models (LLMs) are increasingly optimized for long reasoning, under the assumption that more reasoning leads to better performance. However, emerging evidence suggests that longer responses can sometimes degrade accuracy rather than improve it. In this paper, we conduct a systematic empirical study of the relationship between reasoning length and answer correctness. We find that LLMs tend to overthink simple problems, generating unnecessarily long outputs, and underthink harder ones, failing to extend their reasoning when it is most needed. This indicates that models might misjudge problem difficulty and fail to calibrate their response length appropriately. Furthermore, we investigate the effects of length reduction with a preference optimization algorithm when simply preferring the shorter responses regardless of answer correctness. Experiments show that the generation length can be significantly reduced while maintaining acceptable accuracy. Our findings highlight generation length as a meaningful signal for reasoning behavior and motivate further exploration into LLMs' self-awareness in reasoning length adaptation.