Are LLM Agents Behaviorally Coherent? Latent Profiles for Social Simulation
作者: James Mooney, Josef Woldense, Zheng Robert Jia, Shirley Anugrah Hayati, My Ha Nguyen, Vipul Raheja, Dongyeop Kang
分类: cs.AI, cs.CL, cs.LG
发布日期: 2025-09-03
备注: 25 pages, 9 figures, 7 tables
💡 一句话要点
揭示LLM智能体行为不一致性,质疑其在社会模拟中替代人类受试者的有效性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 LLM智能体 行为一致性 社会模拟 人机交互
📋 核心要点
- 现有研究主要关注LLM生成数据与人类数据的匹配度,忽略了LLM智能体自身行为一致性的评估。
- 该研究通过设计实验揭示LLM智能体的内部状态,并考察其在对话环境中的行为,评估其内在一致性。
- 实验结果表明,LLM智能体在不同实验设置下表现出显著的内在不一致性,无法有效替代人类受试者。
📝 摘要(中文)
大型语言模型(LLM)的强大能力使人们认为合成智能体可以替代人类受试者进行研究。为了评估这一主张的合理性,社会科学研究人员主要关注LLM生成的调查数据是否与其所代表的人类对应数据相符。与此不同,本文探讨了一个更根本的问题:智能体是否保持内在一致性,在不同的实验环境下表现出相似的行为?为此,我们设计了一项研究,旨在(a)揭示智能体的内部状态,以及(b)检查智能体在基本对话环境中的行为。该设计使我们能够探索一系列行为假设,以评估智能体的对话行为是否与其揭示的内部状态一致。我们的研究结果表明,不同模型系列和不同模型大小的LLM都存在显著的内在不一致性。最重要的是,我们发现,尽管智能体可能生成与人类对应者相匹配的反应,但它们未能保持内在一致性,这代表了它们准确替代人类受试者进行研究的关键缺陷。我们的模拟代码和数据已公开。
🔬 方法详解
问题定义:现有研究主要关注LLM生成的数据是否与人类数据相符,而忽略了LLM智能体自身行为的一致性。这意味着即使LLM在特定任务上表现良好,也可能无法保证其行为在不同情境下的一致性,从而影响其作为人类受试者替代品的可靠性。
核心思路:该研究的核心思路是通过设计实验来揭示LLM智能体的内部状态,并考察其在对话环境中的行为,从而评估其内在一致性。如果一个智能体是“行为连贯的”,那么它的对话行为应该与其内部状态相符。
技术框架:该研究的技术框架包含两个主要部分:(1) 内部状态揭示:通过特定的prompt设计,诱导LLM智能体表达其内在的偏好、信念等信息,从而构建其内部状态的画像。(2) 对话行为评估:设计一个基本的对话环境,让LLM智能体与其他智能体或人类进行交互,观察其对话行为,并分析其行为是否与其先前揭示的内部状态相符。
关键创新:该研究的关键创新在于其评估LLM智能体行为一致性的方法。与以往关注数据匹配度的研究不同,该研究直接考察LLM智能体在不同情境下的行为是否一致,从而更深入地评估其作为人类受试者替代品的有效性。
关键设计:研究设计了特定的prompt来诱导LLM智能体表达其内部状态,例如偏好、信念等。同时,设计了对话环境,例如角色扮演、谈判等,来观察LLM智能体的对话行为。通过分析LLM智能体的对话行为与其内部状态之间的关系,来评估其行为一致性。具体的参数设置和损失函数等细节未在摘要中提及,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同模型系列和不同模型大小的LLM都存在显著的内在不一致性。即使LLM智能体能够生成与人类相似的反应,也无法保证其行为在不同情境下的一致性。这表明LLM智能体在替代人类受试者进行研究方面存在关键缺陷。
🎯 应用场景
该研究成果对社会科学研究具有重要意义,提醒研究人员在使用LLM智能体进行社会模拟时需要谨慎。该研究也为开发更可靠、更一致的LLM智能体提供了新的思路,未来可应用于人机交互、虚拟助手等领域。
📄 摘要(原文)
The impressive capabilities of Large Language Models (LLMs) have fueled the notion that synthetic agents can serve as substitutes for real participants in human-subject research. In an effort to evaluate the merits of this claim, social science researchers have largely focused on whether LLM-generated survey data corresponds to that of a human counterpart whom the LLM is prompted to represent. In contrast, we address a more fundamental question: Do agents maintain internal consistency, retaining similar behaviors when examined under different experimental settings? To this end, we develop a study designed to (a) reveal the agent's internal state and (b) examine agent behavior in a basic dialogue setting. This design enables us to explore a set of behavioral hypotheses to assess whether an agent's conversation behavior is consistent with what we would expect from their revealed internal state. Our findings on these hypotheses show significant internal inconsistencies in LLMs across model families and at differing model sizes. Most importantly, we find that, although agents may generate responses matching those of their human counterparts, they fail to be internally consistent, representing a critical gap in their capabilities to accurately substitute for real participants in human-subject research. Our simulation code and data are publicly accessible.