Larger Language Models Don't Care How You Think: Why Chain-of-Thought Prompting Fails in Subjective Tasks

作者: Georgios Chochlakis, Niyantha Maruthu Pandiyan, Kristina Lerman, Shrikanth Narayanan

分类: cs.CL, cs.AI

发布日期: 2024-09-10 (更新: 2024-10-17)

备注: 5 pages, 2 figures, 1 table. arXiv admin note: text overlap with arXiv:2403.17125

期刊: ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2025

🔗 代码/项目: GITHUB

💡 一句话要点

大型语言模型在主观任务中Chain-of-Thought推理失效：推理先验固化后验预测

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 上下文学习 Chain-of-Thought 推理先验 后验崩溃

📋 核心要点

现有ICL方法在情感、道德等主观任务中，易受先验知识影响，导致后验预测固化，无法有效学习。
该论文研究CoT提示是否也会导致LLM推理先验固化，从而影响其在主观任务中的表现。
实验表明，对于大型语言模型，CoT提示确实存在与ICL类似的后验崩溃问题，推理过程受先验影响较大。

📝 摘要（中文）

上下文学习(ICL)已成为大型语言模型(LLM)执行自然语言任务的主流技术，因为它不需要使用基于梯度的方法更新模型参数。ICL有望以较小的计算成本“调整”LLM，使其在当前任务中达到有竞争力的或最先进的水平。ICL可以通过在提示中明确地加入推理过程来增强，这种技术称为Chain-of-Thought (CoT)提示。然而，最近的研究发现，ICL主要依赖于任务先验的检索，而不是“学习”执行任务，特别是对于像情感和道德这样复杂的、主观的领域，在这些领域中，先验会固化后验预测。在这项工作中，我们研究了“启用”推理是否也会在LLM中产生相同的行为，即CoT的格式检索推理先验，尽管提示中存在证据，但这些先验仍然相对不变。我们发现，令人惊讶的是，对于较大的语言模型，CoT确实遭受与ICL相同的后验崩溃。代码可在https://github.com/gchochla/cot-priors获得。

🔬 方法详解

问题定义：现有的大型语言模型在处理主观任务，如情感分析和道德判断时，即使采用Chain-of-Thought (CoT) 提示，也容易受到先验知识的影响，无法根据具体的上下文进行有效的推理和判断。现有的ICL方法和CoT方法，在这些任务中，容易陷入“先验固化”的问题，即模型倾向于依赖预训练时学到的先验知识，而忽略了prompt中提供的具体信息。

核心思路：该论文的核心思路是，通过实验验证CoT提示是否也会导致大型语言模型在主观任务中出现与ICL类似的后验崩溃现象。即，模型在进行推理时，是否会受到预训练时学到的推理模式（推理先验）的强烈影响，从而无法根据prompt中的具体证据进行灵活的推理和判断。

技术框架：该论文主要采用实验分析的方法。首先，设计一系列主观任务，例如情感分析和道德判断。然后，使用不同的CoT提示策略，包括不同的推理步骤和不同的推理风格，来引导大型语言模型进行推理。最后，分析模型的输出结果，评估模型是否能够根据prompt中的具体信息进行有效的推理，以及模型是否受到了推理先验的影响。

关键创新：该论文的关键创新在于，首次揭示了CoT提示在大型语言模型中也存在后验崩溃的问题，尤其是在主观任务中。这表明，即使通过CoT提示显式地引导模型进行推理，模型仍然容易受到预训练时学到的推理模式的影响，无法进行真正意义上的“上下文学习”。

关键设计：论文的关键设计在于对CoT提示的格式和内容的控制。通过设计不同的CoT示例，研究人员可以操纵模型所接触到的推理先验，并观察这些先验如何影响模型在后续任务中的表现。例如，他们可以提供一些带有特定情感色彩的推理步骤，然后观察模型在情感分析任务中是否会受到这些情感色彩的影响。

🖼️ 关键图片

📊 实验亮点

该研究发现，即使使用CoT提示，大型语言模型在主观任务中仍然存在后验崩溃问题。这意味着模型倾向于依赖预训练的推理先验，而忽略了prompt中的具体信息。这一发现挑战了CoT提示的有效性，并为改进大型语言模型在主观任务中的表现提供了新的方向。

🎯 应用场景

该研究成果对于提升大型语言模型在主观任务中的表现具有重要意义。通过深入理解CoT提示的局限性，可以设计更有效的提示策略，减少先验知识的干扰，提高模型在情感分析、道德判断等领域的准确性和可靠性。此外，该研究也为开发更具鲁棒性和适应性的语言模型提供了新的思路。

📄 摘要（原文）

In-Context Learning (ICL) in Large Language Models (LLM) has emerged as the dominant technique for performing natural language tasks, as it does not require updating the model parameters with gradient-based methods. ICL promises to "adapt" the LLM to perform the present task at a competitive or state-of-the-art level at a fraction of the computational cost. ICL can be augmented by incorporating the reasoning process to arrive at the final label explicitly in the prompt, a technique called Chain-of-Thought (CoT) prompting. However, recent work has found that ICL relies mostly on the retrieval of task priors and less so on "learning" to perform tasks, especially for complex subjective domains like emotion and morality, where priors ossify posterior predictions. In this work, we examine whether "enabling" reasoning also creates the same behavior in LLMs, wherein the format of CoT retrieves reasoning priors that remain relatively unchanged despite the evidence in the prompt. We find that, surprisingly, CoT indeed suffers from the same posterior collapse as ICL for larger language models. Code is avalaible at https://github.com/gchochla/cot-priors.

Larger Language Models Don't Care How You Think: Why Chain-of-Thought Prompting Fails in Subjective Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理