LLM Agents Display Human Biases but Exhibit Distinct Learning Patterns
作者: Idan Horowitz, Ori Plonsky
分类: cs.AI
发布日期: 2025-03-13
💡 一句话要点
研究表明LLM在经验决策中表现出与人类相似的偏差,但学习模式迥异
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 经验决策 行为偏差 认知科学 人机交互
📋 核心要点
- 现有方法难以准确模拟人类在经验决策中的学习过程,尤其是在行为偏差方面。
- 该研究对比LLM与人类在经验决策任务中的选择模式,揭示其学习机制的差异。
- 实验表明,LLM虽然在宏观上表现出与人类相似的偏差,但微观学习模式存在显著差异。
📝 摘要(中文)
本文研究了大型语言模型(LLM)在经验决策任务中的选择模式,该任务涉及重复选择和从反馈中学习,并将LLM的行为与人类参与者进行比较。研究发现,总体而言,LLM似乎表现出与人类相似的行为偏差:两者都表现出对罕见事件的低估和相关性效应。然而,对选择模式更细致的分析表明,这种情况发生的原因截然不同。与人类不同,LLM表现出强烈的近因偏差,而人类似乎以更复杂的方式做出反应。虽然这些不同的过程可能导致平均而言相似的行为,但取决于最近事件的选择模式在这两组之间差异很大。具体而言,诸如“意外触发变化”和“罕见事件的波浪式近因效应”等现象在人类中被稳健地观察到,但在LLM中完全不存在。研究结果为了解使用LLM模拟和预测学习环境中的人类的局限性提供了见解,并强调在调查LLM是否复制人类决策倾向时,需要对其行为进行更精细的分析。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)在经验决策任务中的行为模式,特别是它们是否以及如何表现出与人类相似的认知偏差。现有方法在利用LLM模拟人类决策行为时,往往忽略了LLM与人类在学习机制上的根本差异,导致模拟结果不够准确,无法有效预测人类行为。
核心思路:论文的核心思路是通过对比LLM和人类在同一经验决策任务中的选择模式,揭示它们在学习过程中的异同。通过分析LLM和人类在不同情境下的选择行为,特别是对罕见事件和近期事件的反应,来探究它们各自的学习机制和认知偏差。
技术框架:该研究采用经验决策任务,参与者(包括LLM和人类)需要重复进行选择,并根据反馈进行学习。研究人员设计了特定的实验场景,控制了事件的概率分布和反馈机制。通过分析参与者的选择序列,可以提取出各种行为指标,例如对罕见事件的权重、近因偏差的强度等。然后,研究人员对LLM和人类的这些行为指标进行对比分析,以揭示它们在学习过程中的差异。
关键创新:该研究的关键创新在于它揭示了LLM虽然在宏观上可能表现出与人类相似的认知偏差,但在微观层面上,其学习机制与人类存在显著差异。具体而言,LLM表现出更强的近因偏差,而人类则表现出更复杂的学习模式,例如“意外触发变化”和“罕见事件的波浪式近因效应”。
关键设计:研究中关键的设计包括:1) 精心设计的经验决策任务,能够有效诱导出人类的认知偏差;2) 对LLM和人类选择行为的细致分析,能够提取出各种行为指标;3) 对LLM和人类行为指标的对比分析,能够揭示它们在学习机制上的差异。研究中使用的LLM的具体型号和参数设置未知。
🖼️ 关键图片
📊 实验亮点
研究发现,LLM在总体上表现出与人类相似的行为偏差,如低估罕见事件和相关性效应。然而,LLM表现出比人类更强的近因偏差。人类表现出“意外触发变化”和“罕见事件的波浪式近因效应”,而LLM则完全没有这些现象。这些发现表明,LLM在模拟人类决策行为方面存在局限性。
🎯 应用场景
该研究成果可应用于改进LLM在模拟人类行为方面的能力,例如在人机交互、教育、营销等领域。通过更深入地理解LLM和人类在学习机制上的差异,可以开发出更有效的人工智能系统,更好地与人类进行协作和互动。此外,该研究也为认知科学和行为经济学提供了新的视角,有助于更深入地理解人类的决策过程。
📄 摘要(原文)
We investigate the choice patterns of Large Language Models (LLMs) in the context of Decisions from Experience tasks that involve repeated choice and learning from feedback, and compare their behavior to human participants. We find that on the aggregate, LLMs appear to display behavioral biases similar to humans: both exhibit underweighting rare events and correlation effects. However, more nuanced analyses of the choice patterns reveal that this happens for very different reasons. LLMs exhibit strong recency biases, unlike humans, who appear to respond in more sophisticated ways. While these different processes may lead to similar behavior on average, choice patterns contingent on recent events differ vastly between the two groups. Specifically, phenomena such as
surprise triggers change" and thewavy recency effect of rare events" are robustly observed in humans, but entirely absent in LLMs. Our findings provide insights into the limitations of using LLMs to simulate and predict humans in learning environments and highlight the need for refined analyses of their behavior when investigating whether they replicate human decision making tendencies.