Systematic Bias in Large Language Models: Discrepant Response Patterns in Binary vs. Continuous Judgment Tasks

📄 arXiv: 2504.19445v1 📥 PDF

作者: Yi-Long Lu, Chunhui Zhang, Wei Wang

分类: cs.CL

发布日期: 2025-04-28


💡 一句话要点

揭示大语言模型在二元与连续判断任务中的系统性偏差

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 偏差分析 二元判断 连续判断 情感分析 决策任务 响应格式

📋 核心要点

  1. 现有大语言模型在决策任务中存在潜在偏差,影响其可靠性,尤其是在心理文本分析等领域。
  2. 该研究通过对比二元和连续响应格式,揭示了LLMs在判断任务中存在的系统性负偏差。
  3. 实验结果表明,LLMs在二元格式下更倾向于给出负面判断,强调任务设计对模型偏差的影响。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地应用于心理文本分析和自动化工作流程中的决策等任务。然而,由于其训练过程中可能存在的偏差,它们的可靠性仍然令人担忧。本研究探讨了不同的响应格式:二元与连续,如何系统地影响LLMs的判断。在价值陈述判断任务和文本情感分析任务中,我们提示LLMs模拟人类响应,并在包括开源和商业模型在内的多个模型上测试了这两种格式。我们的研究结果揭示了一种一致的负偏差:与连续格式相比,LLMs在二元格式中更倾向于给出“负面”判断。控制实验进一步表明,这种模式在两个任务中都成立。我们的结果强调了在将LLMs应用于决策任务时考虑响应格式的重要性,因为任务设计的微小变化可能会引入系统性偏差。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLMs)在不同响应格式下(二元 vs. 连续)的判断偏差问题。现有方法没有充分考虑响应格式对LLM判断结果的系统性影响,可能导致在实际应用中产生误导性结论。

核心思路:核心思路是通过设计对比实验,分别采用二元和连续两种响应格式,让LLMs执行价值陈述判断和文本情感分析任务,观察并分析LLMs在不同格式下的判断结果差异。通过控制实验验证这种差异的普遍性。

技术框架:整体框架包括两个主要任务:价值陈述判断和文本情感分析。对于每个任务,都设计了二元和连续两种响应格式。LLMs被提示模拟人类响应,并记录其判断结果。通过统计分析,比较不同响应格式下的判断分布,从而揭示潜在的偏差。

关键创新:该研究的关键创新在于发现了LLMs在二元响应格式下存在系统性的负偏差,即更容易给出负面判断。这种偏差此前未被充分认识,可能对LLMs在决策任务中的应用产生重要影响。

关键设计:在价值陈述判断任务中,二元格式要求LLM判断陈述是“积极”还是“消极”,而连续格式则要求LLM给出一个介于-1到1之间的数值,表示情感倾向。在文本情感分析任务中,也采用了类似的二元和连续格式。关键在于保持其他实验条件一致,仅改变响应格式,从而突出响应格式的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLMs在二元响应格式下更倾向于给出负面判断,与连续格式相比存在显著差异。例如,在价值陈述判断任务中,二元格式下的负面判断比例明显高于连续格式。控制实验进一步验证了这种偏差在不同任务中的普遍性,强调了响应格式对LLM判断结果的系统性影响。

🎯 应用场景

该研究成果可应用于改进LLMs在心理文本分析、情感分析、风险评估等决策任务中的应用。通过了解和减轻响应格式带来的偏差,可以提高LLMs决策的公平性和准确性,避免因模型偏差导致的不良后果。未来可用于开发更鲁棒、更值得信赖的AI系统。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly used in tasks such as psychological text analysis and decision-making in automated workflows. However, their reliability remains a concern due to potential biases inherited from their training process. In this study, we examine how different response format: binary versus continuous, may systematically influence LLMs' judgments. In a value statement judgments task and a text sentiment analysis task, we prompted LLMs to simulate human responses and tested both formats across several models, including both open-source and commercial models. Our findings revealed a consistent negative bias: LLMs were more likely to deliver "negative" judgments in binary formats compared to continuous ones. Control experiments further revealed that this pattern holds across both tasks. Our results highlight the importance of considering response format when applying LLMs to decision tasks, as small changes in task design can introduce systematic biases.