A Comprehensive Evaluation of Cognitive Biases in LLMs
作者: Simon Malberg, Roman Poletukhin, Carolin M. Schuster, Georg Groh
分类: cs.CL, cs.AI
发布日期: 2024-10-20 (更新: 2025-10-31)
备注: Published in "Proceedings of the 5th International Conference on Natural Language Processing for Digital Humanities"
DOI: 10.18653/v1/2025.nlp4dh-1.50
🔗 代码/项目: GITHUB
💡 一句话要点
大规模评估LLM认知偏差:构建通用测试框架与基准数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 认知偏差 评估框架 基准数据集 决策场景
📋 核心要点
- 现有研究缺乏对LLM认知偏差的系统性、大规模评估,难以全面了解LLM的潜在风险。
- 论文提出一种通用测试框架,能够可靠地生成大规模测试用例,用于检测LLM中的认知偏差。
- 实验结果表明,在评估的20个LLM中,普遍存在多种认知偏差,证实了LLM在决策过程中可能存在潜在问题。
📝 摘要(中文)
本文对20个最先进的大型语言模型(LLM)在各种决策场景下进行了大规模的认知偏差评估,共涉及30种认知偏差。主要贡献包括:为LLM构建可靠且大规模的通用测试框架,用于生成测试用例;构建包含30,000个测试用例的基准数据集,用于检测LLM中的认知偏差;以及对20个LLM中存在的偏差进行全面评估。研究结果证实并扩展了先前的发现,表明至少在部分LLM中存在所有30种被测认知偏差。论文公开了框架代码,以鼓励未来对LLM偏差的研究。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)中存在的认知偏差问题。现有方法缺乏系统性和规模性,难以全面评估LLM在各种决策场景下的偏差表现,从而无法有效识别和缓解潜在风险。
核心思路:论文的核心思路是构建一个通用的测试框架,能够自动生成大规模、多样化的测试用例,覆盖多种认知偏差类型。通过对LLM进行系统性测试,可以量化其偏差程度,从而为后续的偏差缓解研究提供依据。
技术框架:该框架包含以下主要模块:1) 偏差类型定义模块:定义了30种常见的认知偏差类型,并为每种偏差设计了相应的测试场景;2) 测试用例生成模块:基于定义的测试场景,自动生成大量的测试用例,保证测试的多样性和覆盖性;3) LLM评估模块:将生成的测试用例输入到待评估的LLM中,记录其输出结果;4) 偏差分析模块:分析LLM的输出结果,计算其在不同偏差类型上的得分,从而评估其偏差程度。
关键创新:论文的关键创新在于提出了一个通用的、可扩展的测试框架,能够自动生成大规模的测试用例,用于评估LLM中的认知偏差。该框架不仅可以用于评估现有的LLM,还可以用于评估未来的LLM,为LLM的可靠性和安全性评估提供了一种有效的方法。
关键设计:测试用例生成模块的设计是关键。针对每种认知偏差,论文设计了特定的提示模板和约束条件,以确保生成的测试用例能够有效地诱导LLM产生相应的偏差行为。例如,对于锚定效应,测试用例会包含一个初始的“锚定”值,然后要求LLM做出判断,观察其判断是否受到锚定值的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在评估的20个LLM中,普遍存在多种认知偏差,包括锚定效应、可得性启发法、确认偏差等。具体来说,所有30种被测认知偏差都至少在部分LLM中有所体现,这表明LLM在决策过程中容易受到各种认知偏差的影响。该研究为LLM的偏差评估提供了全面的基准数据。
🎯 应用场景
该研究成果可应用于LLM的安全性评估、风险控制和伦理治理。通过识别和量化LLM中的认知偏差,可以帮助开发者更好地理解LLM的局限性,并采取相应的措施来缓解偏差,从而提高LLM的可靠性和公平性。此外,该研究还可以促进对AI伦理问题的更深入探讨,推动AI技术的健康发展。
📄 摘要(原文)
We present a large-scale evaluation of 30 cognitive biases in 20 state-of-the-art large language models (LLMs) under various decision-making scenarios. Our contributions include a novel general-purpose test framework for reliable and large-scale generation of tests for LLMs, a benchmark dataset with 30,000 tests for detecting cognitive biases in LLMs, and a comprehensive assessment of the biases found in the 20 evaluated LLMs. Our work confirms and broadens previous findings suggesting the presence of cognitive biases in LLMs by reporting evidence of all 30 tested biases in at least some of the 20 LLMs. We publish our framework code to encourage future research on biases in LLMs: https://github.com/simonmalberg/cognitive-biases-in-llms