A Multifaceted Analysis of Negative Bias in Large Language Models through the Lens of Parametric Knowledge

📄 arXiv: 2511.10881v1 📥 PDF

作者: Jongyoon Song, Sangwon Yu, Sungroh Yoon

分类: cs.CL, cs.AI

发布日期: 2025-11-14

备注: Accepted to IEEE Transactions on Audio, Speech and Language Processing

DOI: 10.1109/TASLPRO.2025.3633059


💡 一句话要点

通过参数知识视角分析大语言模型中的负偏见,揭示其内在影响因素。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 负偏见 参数知识 提示工程 二元决策 知识不足 思维链提示

📋 核心要点

  1. 现有研究主要关注负注意力头,但缺乏对导致大语言模型负偏见的深层因素的探索。
  2. 论文提出一种评估集构建流程,根据模型参数知识将数据分为正确、错误和知识不足三类,从而细粒度分析负偏见。
  3. 实验表明,提供相关上下文和“我不知道”选项能减少负偏见,而思维链提示会放大偏见,且偏见程度受提示类型影响。

📝 摘要(中文)

本文深入研究了大语言模型(LLM)中存在的负偏见现象,即模型在二元决策任务中过度生成否定回答的倾向。与以往关注负注意力头的研究不同,本文揭示了LLM存在格式层面的负偏见,即提示格式比否定回答的语义对模型的影响更大。为了细粒度地研究负偏见,本文提出了一种评估集构建流程,该流程根据模型的参数知识将数据集系统地分为正确、错误和知识不足三个子集。通过对该评估集的分析,我们发现了一种捷径行为,即模型在缺乏足够知识回答是非问题时,倾向于生成否定回答,从而导致负偏见。此外,我们还研究了在与参数知识相关的各种提示场景下,负偏见如何变化。我们观察到,提供相关上下文和提供“我不知道”选项通常会减少负偏见,而思维链提示往往会放大这种偏见。最后,我们证明了负偏见的程度可能因提示类型而异,从而影响响应的方向。这项工作揭示了影响负偏见的各种因素,为缓解LLM中的负偏见提供了重要的见解。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLM)在二元决策任务中过度生成否定回答的负偏见问题。现有方法主要集中在识别和消除负注意力头,但缺乏对导致这种偏见的根本原因和内在机制的深入理解,特别是模型参数知识的影响。

核心思路:论文的核心思路是通过构建一个基于模型参数知识的评估集,将问题划分为模型已知、错误和知识不足三种类型,从而细粒度地分析模型在不同知识状态下的负偏见行为。这种方法能够揭示模型在缺乏知识时倾向于否定回答的捷径行为。

技术框架:论文的技术框架主要包含以下几个阶段:1) 评估集构建:根据LLM的参数知识将数据集划分为三个子集(正确、错误、知识不足)。2) 提示工程:设计不同的提示策略,包括提供上下文、提供“我不知道”选项、使用思维链提示等。3) 负偏见评估:在不同提示策略下,评估模型在各个子集上的负偏见程度。4) 结果分析:分析不同因素(如知识状态、提示策略)对负偏见的影响。

关键创新:论文的关键创新在于:1) 提出了基于参数知识的评估集构建方法,能够细粒度地分析负偏见。2) 揭示了LLM在缺乏知识时倾向于否定回答的捷径行为。3) 系统地研究了不同提示策略对负偏见的影响。

关键设计:论文的关键设计包括:1) 参数知识的定义和评估方法(具体如何判断模型是否具备相关知识,论文中未详细说明,属于未知)。2) 不同提示策略的设计,例如,如何构建提供相关上下文的提示,如何设计思维链提示。3) 负偏见程度的量化指标(论文中未明确说明,属于未知)。

🖼️ 关键图片

img_0

📊 实验亮点

论文通过实验证明,提供相关上下文和提供“我不知道”选项可以有效减少负偏见,而思维链提示反而会放大负偏见。此外,实验还表明,负偏见的程度会受到提示类型的影响,从而影响模型响应的方向。具体的性能数据和提升幅度在摘要中未提及,属于未知。

🎯 应用场景

该研究成果可应用于提升大语言模型在问答、对话等任务中的可靠性和准确性,尤其是在需要模型进行判断和决策的场景中。通过缓解负偏见,可以避免模型因知识不足而过度否定,从而提高用户满意度和信任度。此外,该研究也为开发更鲁棒、更可控的大语言模型提供了指导。

📄 摘要(原文)

Negative bias refers to the tendency of large language models (LLMs) to excessively generate negative responses in binary decision tasks (e.g., yes-no question answering). Previous research has focused on detecting and addressing negative attention heads that induce negative bias. However, the underlying detailed factors influencing negative bias remain underexplored. In this paper, we demonstrate that LLMs exhibit format-level negative bias, meaning the prompt format more influences their responses than the semantics of the negative response. For the fine-grained study of the negative bias, we introduce a pipeline for constructing the evaluation set, which systematically categorizes the dataset into three subsets based on the model's parametric knowledge: correct, incorrect, and insufficient relevant knowledge. Through analysis of this evaluation set, we identify a shortcut behavior in which models tend to generate negative responses when they lack sufficient knowledge to answer a yes-no question, leading to negative bias. We further examine how negative bias changes under various prompting scenarios related to parametric knowledge. We observe that providing relevant context and offering an "I don't know" option generally reduces negative bias, whereas chain-of-thought prompting tends to amplify the bias. Finally, we demonstrate that the degree of negative bias can vary depending on the type of prompt, which influences the direction of the response. Our work reveals the various factors that influence negative bias, providing critical insights for mitigating it in LLMs.