Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs
作者: Itay Itzhak, Yonatan Belinkov, Gabriel Stanovsky
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-07-09 (更新: 2025-07-12)
备注: CoLM 2025
💡 一句话要点
研究揭示:LLM认知偏差主要源于预训练,微调影响有限
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 认知偏差 预训练 微调 因果推断
📋 核心要点
- 大型语言模型存在认知偏差,但偏差来源(预训练或微调)尚不明确,影响偏差缓解策略。
- 论文提出两步因果实验方法:多次随机微调评估随机性影响,交叉微调隔离数据集依赖性。
- 实验表明,预训练对认知偏差的影响更大,相同预训练模型的偏差模式更相似。
📝 摘要(中文)
大型语言模型(LLMs)表现出认知偏差,这是一种类似于人类的非理性决策的系统性倾向。先前的研究发现,这些偏差在不同模型之间存在差异,并且可以通过指令微调来放大。然而,这些偏差差异是源于预训练、微调,还是仅仅是训练随机性造成的随机噪声,仍然不清楚。我们提出了一种两步因果实验方法来解开这些因素。首先,我们使用不同的随机种子多次微调模型,以研究训练随机性如何影响超过30种认知偏差。其次,我们引入了“交叉微调”——在模型之间交换指令数据集,以隔离偏差来源。这种交换使用导致不同偏差模式的数据集,直接测试偏差是否依赖于数据集。我们的研究结果表明,虽然训练随机性引入了一些可变性,但偏差主要由预训练塑造:具有相同预训练骨干的模型比仅共享微调数据的模型表现出更相似的偏差模式。这些见解表明,理解微调模型中的偏差需要考虑其预训练起源,而不仅仅是微调效果。这种观点可以指导未来开发评估和减轻LLM偏差的原则性策略。
🔬 方法详解
问题定义:大型语言模型(LLMs)表现出与人类相似的认知偏差,这些偏差会影响模型的决策过程。现有研究表明,这些偏差在不同模型之间存在差异,并且可以通过指令微调进行放大。然而,目前尚不清楚这些偏差差异的根本来源是预训练阶段、微调阶段,还是仅仅由于训练过程中的随机性所导致。因此,如何有效地评估和减轻LLM中的认知偏差是一个重要的研究问题。
核心思路:本研究的核心思路是通过因果实验来解耦预训练、微调和训练随机性对LLM认知偏差的影响。具体而言,通过控制变量,分别研究不同预训练模型、不同微调数据集以及不同随机种子对模型偏差的影响,从而确定偏差的主要来源。这种方法旨在超越简单的观察性研究,建立偏差来源的因果关系。
技术框架:该研究采用两步实验框架。第一步,使用不同的随机种子多次微调相同的预训练模型,以评估训练随机性对认知偏差的影响。第二步,引入“交叉微调”策略,即在不同的预训练模型之间交换微调数据集。通过比较使用相同预训练模型但不同微调数据集的模型,以及使用不同预训练模型但相同微调数据集的模型,来确定偏差的主要来源是预训练还是微调。
关键创新:本研究的关键创新在于提出了“交叉微调”的实验方法,这是一种新颖的因果推断方法,用于解耦预训练和微调对LLM认知偏差的影响。通过这种方法,研究人员可以直接测试偏差是否依赖于特定的微调数据集,从而确定偏差的主要来源。
关键设计:研究中使用了超过30种认知偏差的评估指标,涵盖了各种不同的认知偏见类型。在交叉微调实验中,选择了导致不同偏差模式的微调数据集,以便更清晰地观察数据集对偏差的影响。此外,研究人员还仔细控制了实验中的其他变量,例如训练时长和学习率,以确保实验结果的可靠性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,预训练对LLM的认知偏差具有更显著的影响。具有相同预训练骨干的模型,即使使用不同的微调数据,也表现出更相似的偏差模式。这表明,在评估和缓解LLM的偏差时,需要更加关注预训练阶段的影响。
🎯 应用场景
该研究成果可应用于LLM的偏差评估与缓解。通过了解偏差的来源,可以更有针对性地设计预训练和微调策略,从而减少LLM中的认知偏差,提高模型的公平性和可靠性。这对于在医疗、金融等敏感领域部署LLM至关重要。
📄 摘要(原文)
Large language models (LLMs) exhibit cognitive biases -- systematic tendencies of irrational decision-making, similar to those seen in humans. Prior work has found that these biases vary across models and can be amplified by instruction tuning. However, it remains unclear if these differences in biases stem from pretraining, finetuning, or even random noise due to training stochasticity. We propose a two-step causal experimental approach to disentangle these factors. First, we finetune models multiple times using different random seeds to study how training randomness affects over $30$ cognitive biases. Second, we introduce \emph{cross-tuning} -- swapping instruction datasets between models to isolate bias sources. This swap uses datasets that led to different bias patterns, directly testing whether biases are dataset-dependent. Our findings reveal that while training randomness introduces some variability, biases are mainly shaped by pretraining: models with the same pretrained backbone exhibit more similar bias patterns than those sharing only finetuning data. These insights suggest that understanding biases in finetuned models requires considering their pretraining origins beyond finetuning effects. This perspective can guide future efforts to develop principled strategies for evaluating and mitigating bias in LLMs.