Misalignment of LLM-Generated Personas with Human Perceptions in Low-Resource Settings

📄 arXiv: 2512.02058v1 📥 PDF

作者: Tabia Tanzin Prama, Christopher M. Danforth, Peter Sheridan Dodds

分类: cs.CY, cs.CL

发布日期: 2025-11-28


💡 一句话要点

揭示LLM生成人物角色在低资源环境下与人类认知的不一致性,尤其在共情和可信度方面

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人物角色生成 低资源环境 文化差异 情感分析 社会科学研究 波莉安娜原则

📋 核心要点

  1. 现有LLM生成的人物角色缺乏对特定文化和情感的深刻理解,导致其在低资源环境中的表现可能与真实人类存在偏差。
  2. 该研究通过对比LLM生成的人物角色与真实人类在文化特定问题上的反应,量化评估了二者在感知和情感表达上的差异。
  3. 实验结果表明,LLM在共情和可信度方面显著低于人类,并且表现出更强的积极情感倾向,揭示了LLM人物角色与真实人类体验的不一致性。

📝 摘要(中文)

大型语言模型(LLM)的最新进展使其能够生成AI人物角色,但它们缺乏深刻的背景、文化和情感理解,这是一个显著的局限性。本研究定量比较了人类的反应与八个LLM生成的社会人物角色(例如,男性、女性、穆斯林、政治支持者)在孟加拉国等低资源环境中的反应,使用了具有文化针对性的问题。结果表明,在回答问题以及人物角色感知的各个方面,人类的反应都显著优于所有LLM,尤其是在共情和可信度方面差距巨大。此外,LLM生成的内容表现出一种沿着“波莉安娜原则”的系统性偏差,在积极情感方面得分明显高于人类(LLM的平均值为5.99,而人类为5.60)。这些发现表明,LLM人物角色不能准确反映资源匮乏环境中真实人物的真实体验。在将LLM人物角色部署到社会科学研究中之前,必须根据真实世界的人类数据对其进行验证,以确保其一致性和可靠性。

🔬 方法详解

问题定义:论文旨在解决LLM生成的人物角色在低资源环境下,与真实人类认知不一致的问题。现有方法缺乏对特定文化背景和情感细微差别的考虑,导致生成的人物角色可能无法准确反映当地人的真实体验和观点。这种不一致性会影响LLM在社会科学研究中的应用,例如在模拟社会行为或进行文化敏感性分析时。

核心思路:论文的核心思路是通过对比LLM生成的人物角色与真实人类在特定文化背景下的反应,量化评估二者之间的差异。通过设计具有文化针对性的问题,并分析LLM和人类在回答问题以及人物角色感知方面的差异,揭示LLM在理解和表达特定文化背景下的情感和观点方面的局限性。

技术框架:该研究的技术框架主要包括以下几个步骤: 1. 人物角色生成:使用LLM生成八个不同社会身份的人物角色,例如男性、女性、穆斯林、政治支持者等。 2. 问题设计:设计具有文化针对性的问题,以评估LLM和人类对特定文化背景下的社会问题的理解和反应。 3. 数据收集:收集LLM生成的人物角色和真实人类对问题的回答。 4. 数据分析:对比LLM和人类在回答问题以及人物角色感知方面的差异,包括情感倾向、共情能力、可信度等。

关键创新:该研究的关键创新在于: 1. 定量评估LLM人物角色与人类认知的不一致性:通过实验数据量化了LLM生成的人物角色与真实人类在低资源环境下的差异,尤其是在共情和可信度方面。 2. 揭示LLM的“波莉安娜原则”偏差:发现LLM生成的内容在情感上存在系统性的积极偏差,这可能会影响其在社会科学研究中的应用。

关键设计: 1. 人物角色选择:选择了具有代表性的社会身份,以涵盖不同的人口统计和社会群体。 2. 问题设计:问题设计考虑了当地的文化背景和社会问题,以确保能够有效评估LLM和人类对特定文化环境的理解。 3. 情感分析:使用了情感分析工具来评估LLM和人类在回答问题时的情感倾向。 4. 人物角色感知评估:设计了问卷来评估参与者对LLM生成的人物角色的感知,包括共情能力、可信度等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在回答问题以及人物角色感知的各个方面,人类的反应都显著优于所有LLM。尤其是在共情和可信度方面,LLM与人类的差距最大。此外,LLM生成的内容表现出一种沿着“波莉安娜原则”的系统性偏差,在积极情感方面得分明显高于人类(LLM的平均值为5.99,而人类为5.60)。这些数据清晰地展示了LLM在低资源环境下与人类认知的不一致性。

🎯 应用场景

该研究成果可应用于改进LLM在社会科学研究中的应用,例如在模拟社会行为、进行文化敏感性分析或开发更具文化适应性的AI助手时。通过了解LLM的局限性,可以更好地利用LLM的优势,并避免因其偏差而产生负面影响。未来的研究可以探索如何通过微调或知识注入等方法,提高LLM在特定文化背景下的表现。

📄 摘要(原文)

Recent advances enable Large Language Models (LLMs) to generate AI personas, yet their lack of deep contextual, cultural, and emotional understanding poses a significant limitation. This study quantitatively compared human responses with those of eight LLM-generated social personas (e.g., Male, Female, Muslim, Political Supporter) within a low-resource environment like Bangladesh, using culturally specific questions. Results show human responses significantly outperform all LLMs in answering questions, and across all matrices of persona perception, with particularly large gaps in empathy and credibility. Furthermore, LLM-generated content exhibited a systematic bias along the lines of the ``Pollyanna Principle'', scoring measurably higher in positive sentiment ($Φ_{avg} = 5.99$ for LLMs vs. $5.60$ for Humans). These findings suggest that LLM personas do not accurately reflect the authentic experience of real people in resource-scarce environments. It is essential to validate LLM personas against real-world human data to ensure their alignment and reliability before deploying them in social science research.