Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse
作者: Ryan Liu, Jiayi Geng, Addison J. Wu, Ilia Sucholutsky, Tania Lombrozo, Thomas L. Griffiths
分类: cs.LG, cs.AI, cs.CL, cs.CY
发布日期: 2024-10-27 (更新: 2025-06-13)
💡 一句话要点
发现思维链(CoT)在特定任务中会降低大模型性能,尤其是在人类思考反而表现更差的任务中。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 思维链 认知心理学 大语言模型 提示工程 模型性能
📋 核心要点
- 思维链(CoT)提示在提升大模型性能方面应用广泛,但其在某些任务中会降低性能,具体场景尚不明确。
- 该研究借鉴认知心理学,选取人类深思熟虑反而表现更差的典型任务,分析CoT对模型性能的影响。
- 实验表明,在特定任务中,CoT会导致模型性能显著下降,揭示了模型与人类认知过程的差异。
📝 摘要(中文)
思维链(CoT)提示已成为提高大型语言和多模态模型性能的常用策略。然而,在哪些情况下CoT会系统性地降低性能仍然是一个开放的问题。本文从认知心理学中汲取灵感,着重研究人类深思熟虑反而会降低表现的六个典型心理学任务,旨在识别CoT降低性能的任务特征。在其中三个任务中,最先进的模型在使用CoT时表现出显著的性能下降(与GPT-4o相比,OpenAI o1-preview的绝对准确率下降高达36.3%),而在其他任务中,CoT的效果是混合的,有积极、中性和消极的变化。虽然模型和人类没有表现出完全平行的认知过程,但考虑思考对人类产生负面影响的情况有助于识别其对模型产生负面影响的情况。通过将人类语言思维和深思熟虑的文献与CoT的评估联系起来,我们为理解推理时推理的影响提供了一个视角。
🔬 方法详解
问题定义:论文旨在解决CoT在哪些任务中会降低大语言模型性能的问题。现有方法缺乏对CoT负面影响的系统性分析,尤其是在人类直觉优于理性思考的任务中。现有研究未能充分考虑人类认知过程的特点,导致CoT的应用存在局限性。
核心思路:论文的核心思路是借鉴认知心理学,选取人类在深思熟虑后表现反而变差的经典任务,例如一些直觉判断任务,来评估CoT对大语言模型性能的影响。通过分析模型在这些任务中使用CoT后的表现,揭示CoT的局限性以及模型与人类认知过程的差异。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 从认知心理学文献中选取六个典型任务,这些任务的特点是人类的深思熟虑会降低表现。2) 使用CoT提示方法,让大语言模型在这些任务上进行推理和预测。3) 评估模型在使用CoT前后的性能变化。4) 分析性能下降的原因,并探讨模型与人类认知过程的差异。
关键创新:该研究的关键创新在于将认知心理学的研究成果与大语言模型的CoT提示方法相结合,为理解CoT的局限性提供了一个新的视角。通过分析模型在特定任务中的表现,揭示了模型与人类认知过程的差异,为改进CoT提示方法提供了新的思路。
关键设计:论文的关键设计包括:1) 任务选择:选取了六个在认知心理学中被广泛研究的、人类深思熟虑反而表现更差的任务。2) 模型选择:使用了包括GPT-4o和OpenAI o1-preview在内的多个先进的大语言模型。3) 评估指标:使用了准确率等指标来评估模型在不同任务中的表现。4) CoT提示:使用了标准的CoT提示方法,引导模型进行推理和预测。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在某些任务中,CoT会导致模型性能显著下降,例如OpenAI o1-preview在使用CoT后,绝对准确率下降高达36.3%。该研究揭示了CoT并非在所有情况下都能提升模型性能,并指出了其在特定任务中的局限性。
🎯 应用场景
该研究成果可应用于指导大语言模型的提示工程,避免在不适宜的任务中使用CoT,从而提高模型的整体性能。此外,该研究有助于更深入地理解大语言模型与人类认知过程的差异,为开发更智能、更符合人类认知习惯的AI系统提供理论基础。
📄 摘要(原文)
Chain-of-thought (CoT) prompting has become a widely used strategy for improving large language and multimodal model performance. However, it is still an open question under which settings CoT systematically reduces performance. In this paper, we seek to identify the characteristics of tasks where CoT reduces performance by drawing inspiration from cognitive psychology, focusing on six representative tasks from the psychological literature where deliberation hurts performance in humans. In three of these tasks, state-of-the-art models exhibit significant performance drop-offs with CoT (up to 36.3\% absolute accuracy for OpenAI o1-preview compared to GPT-4o), while in others, CoT effects are mixed, with positive, neutral, and negative changes. While models and humans do not exhibit perfectly parallel cognitive processes, considering cases where thinking has negative consequences for humans helps identify settings where it negatively impacts models. By connecting the literature on human verbal thinking and deliberation with evaluations of CoT, we offer a perspective for understanding the impact of inference-time reasoning.