Are LLM Agents Behaviorally Coherent? Latent Profiles for Social Simulation
作者: James Mooney, Josef Woldense, Zheng Robert Jia, Shirley Anugrah Hayati, My Ha Nguyen, Vipul Raheja, Dongyeop Kang
分类: cs.AI, cs.CL, cs.LG
发布日期: 2025-09-03
备注: 25 pages, 9 figures, 7 tables
💡 一句话要点
揭示LLM智能体行为不一致性,质疑其在社会模拟中替代人类受试者的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 智能体 行为一致性 社会模拟 人机交互
📋 核心要点
- 现有研究主要关注LLM生成数据与人类数据的匹配度,忽略了LLM智能体自身行为一致性的考察。
- 本研究通过设计实验揭示LLM智能体的内部状态,并考察其在对话中的行为,以此评估其行为一致性。
- 实验结果表明,LLM智能体在不同实验设置下表现出显著的内在不一致性,无法可靠地替代人类受试者。
📝 摘要(中文)
大型语言模型(LLM)的强大能力使人们认为合成智能体可以替代人类受试者进行研究。为了评估这一主张的合理性,社会科学研究人员主要关注LLM生成的调查数据是否与其所代表的人类对应数据相符。与此不同,本文探讨了一个更根本的问题:智能体是否保持内在一致性,在不同的实验设置下保持相似的行为?为此,我们设计了一项研究,旨在(a)揭示智能体的内部状态,以及(b)检查智能体在基本对话设置中的行为。该设计使我们能够探索一系列行为假设,以评估智能体的对话行为是否与其揭示的内部状态一致。我们的研究结果表明,不同模型系列和不同模型大小的LLM都存在显著的内在不一致性。最重要的是,我们发现,尽管智能体可能生成与人类对应者相匹配的反应,但它们未能保持内在一致性,这代表了它们准确替代人类受试者进行研究的关键缺陷。我们的模拟代码和数据已公开。
🔬 方法详解
问题定义:当前社会科学研究中,一个重要趋势是利用LLM构建的智能体来模拟人类行为,从而降低实验成本和提高效率。然而,现有研究主要关注LLM生成的数据是否与人类数据相符,而忽略了LLM智能体自身行为的一致性。如果LLM智能体在不同情境下表现出矛盾的行为,那么其模拟结果的可靠性将受到质疑。因此,本研究旨在评估LLM智能体在不同实验设置下的行为一致性,从而判断其是否能够可靠地替代人类受试者。
核心思路:本研究的核心思路是通过设计特定的实验场景,同时考察LLM智能体的内部状态和外部行为,然后分析两者之间是否存在一致性。具体来说,首先通过某种方式“询问”LLM智能体,以揭示其内部的偏好、价值观等信息(内部状态)。然后,将LLM智能体置于一个对话场景中,观察其行为表现(外部行为)。最后,分析其对话行为是否与其先前揭示的内部状态相符。如果存在显著的不一致性,则表明该LLM智能体无法保持行为一致性。
技术框架:本研究的技术框架主要包含两个阶段:内部状态揭示阶段和对话行为评估阶段。在内部状态揭示阶段,研究人员设计了一系列问题,引导LLM智能体表达其偏好、价值观等信息。这些问题可以采用多种形式,例如多项选择题、开放式问题等。在对话行为评估阶段,研究人员将LLM智能体置于一个预设的对话场景中,并观察其行为表现。对话场景的设计需要能够反映智能体的偏好和价值观,从而便于评估其行为一致性。整个框架的核心在于设计合理的实验场景和评估指标,以准确地衡量LLM智能体的行为一致性。
关键创新:本研究的关键创新在于其研究视角。与以往关注LLM生成数据与人类数据匹配度的研究不同,本研究关注LLM智能体自身行为的一致性。这种视角更加 fundamental,因为只有当LLM智能体能够保持行为一致性时,其生成的数据才有可能可靠地反映人类行为。此外,本研究还提出了一种新的评估LLM智能体行为一致性的方法,该方法通过同时考察智能体的内部状态和外部行为,从而更全面地评估其行为一致性。
关键设计:在内部状态揭示阶段,研究人员设计了一系列情境问题,例如“你更喜欢A还是B?”。在对话行为评估阶段,研究人员设计了一个简单的对话场景,其中两个智能体需要就某个问题达成一致。研究人员通过分析智能体在对话中的发言,判断其行为是否与其先前揭示的偏好相符。例如,如果一个智能体在内部状态揭示阶段表示更喜欢A,但在对话中却支持B,则表明其行为不一致。研究人员使用了多种LLM模型,包括不同模型系列和不同模型大小的模型,以评估不同模型的行为一致性。
📊 实验亮点
实验结果表明,不同模型系列和不同模型大小的LLM都存在显著的内在不一致性。具体来说,LLM智能体在内部状态揭示阶段和对话行为评估阶段表现出矛盾的行为。例如,某些智能体在内部状态揭示阶段表示更喜欢A,但在对话中却支持B。这些结果表明,LLM智能体无法可靠地保持行为一致性,因此无法可靠地替代人类受试者进行研究。
🎯 应用场景
该研究成果对社会科学研究具有重要意义。如果LLM智能体无法可靠地替代人类受试者,那么利用LLM进行社会模拟研究的可靠性将受到质疑。未来的研究需要更加关注LLM智能体的行为一致性问题,并开发更加可靠的LLM智能体模拟方法。此外,该研究成果还可以应用于其他领域,例如人机交互、智能客服等,以提高LLM智能体的可靠性和可用性。
📄 摘要(原文)
The impressive capabilities of Large Language Models (LLMs) have fueled the notion that synthetic agents can serve as substitutes for real participants in human-subject research. In an effort to evaluate the merits of this claim, social science researchers have largely focused on whether LLM-generated survey data corresponds to that of a human counterpart whom the LLM is prompted to represent. In contrast, we address a more fundamental question: Do agents maintain internal consistency, retaining similar behaviors when examined under different experimental settings? To this end, we develop a study designed to (a) reveal the agent's internal state and (b) examine agent behavior in a basic dialogue setting. This design enables us to explore a set of behavioral hypotheses to assess whether an agent's conversation behavior is consistent with what we would expect from their revealed internal state. Our findings on these hypotheses show significant internal inconsistencies in LLMs across model families and at differing model sizes. Most importantly, we find that, although agents may generate responses matching those of their human counterparts, they fail to be internally consistent, representing a critical gap in their capabilities to accurately substitute for real participants in human-subject research. Our simulation code and data are publicly accessible.