Stable Behavior, Limited Variation: Persona Validity in LLM Agents for Urban Sentiment Perception
作者: Neemias B da Silva, Rodrigo Minetto, Daniel Silver, Thiago H Silva
分类: cs.CL, cs.SI
发布日期: 2026-04-30
备注: 8 pages, 8 figures. IEEE DCOSS - UrbCom
💡 一句话要点
研究表明:LLM Agent在城市情感感知中,Persona设定虽稳定但差异有限
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 人格化提示 城市情感感知 多模态学习 Agent建模
📋 核心要点
- 现有城市分析依赖LLM模拟人类感知,但人格化提示能否有效产生多样化行为尚不明确。
- 本研究通过为LLM Agent设定不同人格,评估其对城市情感判断的影响,考察人格化提示的有效性。
- 实验表明,同人格Agent行为稳定,但跨人格差异有限,且无人格模型有时表现更优,提示人格化价值待考量。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被用作城市分析中人类感知的替代品,但人格化提示是否能产生有意义且可重复的行为多样性仍不清楚。本文研究了不同的人格是否会影响多模态LLM生成的城市情感判断。使用包含性别、经济状况、政治倾向和性格等因素的人格集合,我们为每个人格实例化多个Agent,以评估来自PerceptSent数据集的城市场景图像,并评估人格内部的一致性和跨人格的差异。结果表明,共享同一个人格的Agent之间具有很强的收敛性,表明行为稳定且可重复。然而,跨人格的区分有限:经济状况和性格会产生统计上可检测但实际上适度的变化,而性别没有显示出可衡量的影响,政治倾向的影响可以忽略不计。Agent还表现出极端偏见,折叠了人类注释中常见的中间情感类别。因此,在粗粒度极性任务中性能仍然很强,但随着情感分辨率的提高而降低,这表明简单基于标签的人格化提示无法捕捉细粒度的感知判断。为了分离人格调节的贡献,我们还评估了没有人格的相同模型。令人惊讶的是,在所有任务变体中,无人格模型有时与人类标签的一致性相匹配或超过了人格化条件模型,这表明在这种设置中,简单基于标签的人格化提示可能增加的注释价值有限。
🔬 方法详解
问题定义:论文旨在研究在城市情感感知任务中,通过人格化提示(persona prompting)来引导大型语言模型(LLM)Agent,是否能够有效地模拟不同人群的情感判断,并产生有意义且可重复的行为多样性。现有方法主要依赖LLM的固有能力,缺乏对LLM行为进行精细控制的手段,人格化提示被认为是潜在的解决方案,但其有效性尚未得到充分验证。
核心思路:论文的核心思路是通过系统性地构建不同人格的Agent,并让它们对同一批城市场景图像进行情感判断,然后分析Agent在同一个人格内部的一致性以及跨人格之间的差异性。通过这种方式,可以评估人格化提示对LLM Agent行为的影响,并判断其是否能够有效地模拟不同人群的情感感知。
技术框架:整体框架包括以下几个主要步骤:1) 构建人格集合:基于性别、经济状况、政治倾向和性格等因素,构建一个包含多种人格的集合。2) 实例化Agent:为每个人格实例化多个Agent,以评估人格内部的一致性。3) 情感判断:让所有Agent对来自PerceptSent数据集的城市场景图像进行情感判断。4) 评估:评估Agent在同一个人格内部的一致性以及跨人格之间的差异性,并与无人格模型进行比较。
关键创新:论文的关键创新在于系统性地评估了人格化提示在城市情感感知任务中的有效性。通过构建一个包含多种人格的集合,并实例化多个Agent,论文能够更全面地评估人格化提示对LLM Agent行为的影响。此外,论文还通过与无人格模型进行比较,揭示了人格化提示可能存在的局限性。
关键设计:论文的关键设计包括:1) 人格集合的构建:基于性别、经济状况、政治倾向和性格等因素,构建一个包含多种人格的集合,力求覆盖不同的人群特征。2) Agent数量的设置:为每个人格实例化多个Agent,以评估人格内部的一致性,并减少随机性带来的影响。3) 评估指标的选择:选择合适的评估指标来衡量Agent在同一个人格内部的一致性以及跨人格之间的差异性,例如统计显著性检验等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,共享同一个人格的Agent之间具有很强的收敛性,表明行为稳定且可重复。然而,跨人格的区分有限,经济状况和性格会产生统计上可检测但实际上适度的变化,而性别没有显示出可衡量的影响,政治倾向的影响可以忽略不计。更令人惊讶的是,在所有任务变体中,无人格模型有时与人类标签的一致性相匹配或超过了人格化条件模型。
🎯 应用场景
该研究成果可应用于城市规划、社会科学研究、公共政策制定等领域。通过模拟不同人群对城市环境的情感感知,可以更好地了解城市居民的需求,为城市规划提供更科学的依据,并促进更具包容性和可持续性的城市发展。此外,该研究也为LLM在社会科学领域的应用提供了新的思路。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly used as proxies for human perception in urban analysis, yet it remains unclear whether persona prompting produces meaningful and reproducible behavioral diversity. We investigate whether distinct personas influence urban sentiment judgments generated by multimodal LLMs. Using a factorial set of personas spanning gender, economic status, political orientation, and personality, we instantiate multiple agents per persona to evaluate urban scene images from the PerceptSent dataset and assess both within-persona consistency and cross-persona variation. Results show strong convergence among agents sharing a persona, indicating stable and reproducible behavior. However, cross-persona differentiation is limited: economic status and personality induce statistically detectable but practically modest variation, while gender shows no measurable effect and political orientation only negligible impact. Agents also exhibit an extremity bias, collapsing intermediate sentiment categories common in human annotations. As a result, performance remains strong on coarse-grained polarity tasks but degrades as sentiment resolution increases, suggesting that simple label-based persona prompting does not capture fine-grained perceptual judgments. To isolate the contribution of persona conditioning, we additionally evaluate the same model without personas. Surprisingly, the no-persona model sometimes matches or exceeds persona-conditioned agreement with human labels across all task variants, suggesting that simple label-based persona prompting may add limited annotation value in this setting.