Stories of Your Life as Others: A Round-Trip Evaluation of LLM-Generated Life Stories Conditioned on Rich Psychometric Profiles
作者: Ben Wigler, Maria Tsfasman, Tiffany Matej Hrkalovic
分类: cs.CL, cs.AI, cs.HC
发布日期: 2026-04-07
备注: Under review at COLM
💡 一句话要点
利用大型语言模型生成并评估基于心理测量学特征的生活故事
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 人格特征 心理测量学 文本生成 个体差异
📋 核心要点
- 现有评估方法主要依赖模型自我报告,架构多样性有限,且很少使用真实人类心理测量数据,难以评估LLM是否真正理解人格。
- 本文利用真实心理测量数据调节LLM生成生活故事,再由独立LLM从故事中恢复人格分数,以此评估LLM编码人格的能力。
- 实验表明,从生成叙事中恢复的人格分数接近人类测试-复测可靠性,且性格调节产生行为差异化的文本,与真实对话数据相关。
📝 摘要(中文)
本文研究了大型语言模型(LLM)在给定心理测量学特征的情况下生成第一人称生活故事叙述的能力,并评估了生成文本中人格特征的编码质量。研究人员使用290名参与者的真实心理测量数据来调节LLM生成故事,然后使用独立的LLM从这些故事中恢复人格分数。结果表明,从生成的故事中恢复的人格分数接近人类测试-复测的可靠性(平均r = 0.750,达到人类上限的85%),并且这种恢复能力在10个叙述生成器和3个性格评分器中表现稳健。内容分析表明,性格调节产生了行为差异化的文本,其中十分之九的编码特征与参与者真实对话中的相同特征显著相关。这些发现表明,预训练过程中捕获的性格-语言关系支持个体差异的稳健编码和解码,包括在真实人类行为中复制的特征性情绪变异模式。
🔬 方法详解
问题定义:本文旨在评估大型语言模型(LLM)在多大程度上能够将人格特征编码到扩展文本中。现有方法的痛点在于,它们主要依赖于模型自身的问卷调查,架构多样性有限,并且很少使用真实的人类心理测量数据。因此,无法确定人格调节是否产生了具有心理测量学意义的个体差异表征,或者仅仅是对特质描述符的表面对齐。
核心思路:本文的核心思路是进行一个“往返”评估。首先,使用真实的人类心理测量数据来调节LLM生成第一人称的生活故事叙述。然后,使用独立的LLM从这些生成的故事中恢复人格分数。通过比较恢复的人格分数与原始的心理测量数据,可以评估LLM在生成文本中编码人格特征的鲁棒性和准确性。
技术框架:整体流程包括以下几个主要阶段: 1. 数据收集:收集290名参与者的真实心理测量数据。 2. 叙事生成:使用10个不同的LLM(叙事生成器)基于参与者的心理测量数据生成第一人称生活故事叙述。 3. 人格评分:使用3个独立的LLM(人格评分器)从生成的故事中恢复人格分数。 4. 评估:比较恢复的人格分数与原始的心理测量数据,并进行内容分析,以评估LLM在生成文本中编码人格特征的鲁棒性和准确性。
关键创新:本文最重要的技术创新点在于使用了一种“往返”评估方法,该方法能够更全面地评估LLM在生成文本中编码人格特征的能力。此外,本文还使用了真实的人类心理测量数据,并考虑了多种LLM架构,从而提高了评估结果的可靠性和泛化性。
关键设计:本文的关键设计包括: 1. 使用多种LLM(10个叙事生成器和3个人格评分器)以确保结果的鲁棒性。 2. 使用真实的人类心理测量数据作为调节条件。 3. 进行内容分析,以评估生成文本的行为差异化程度。 4. 比较恢复的人格分数与原始的心理测量数据,以评估LLM的编码准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,从LLM生成的生活故事中恢复的人格分数接近人类测试-复测的可靠性(平均r = 0.750,达到人类上限的85%)。此外,内容分析表明,性格调节产生了行为差异化的文本,其中十分之九的编码特征与参与者真实对话中的相同特征显著相关。这些结果表明,LLM能够有效地编码和解码人格特征,并且能够捕捉到真实人类行为中的情绪变异模式。
🎯 应用场景
该研究成果可应用于个性化内容生成、心理健康评估、人机交互等领域。例如,可以根据用户的人格特征生成定制化的故事、游戏或教育内容。此外,还可以利用LLM分析文本数据,从而评估用户的人格特征和心理状态,为心理健康干预提供支持。该研究有助于开发更智能、更人性化的人工智能系统。
📄 摘要(原文)
Personality traits are richly encoded in natural language, and large language models (LLMs) trained on human text can simulate personality when conditioned on persona descriptions. However, existing evaluations rely predominantly on questionnaire self-report by the conditioned model, are limited in architectural diversity, and rarely use real human psychometric data. Without addressing these limitations, it remains unclear whether personality conditioning produces psychometrically informative representations of individual differences or merely superficial alignment with trait descriptors. To test how robustly LLMs can encode personality into extended text, we condition LLMs on real psychometric profiles from 290 participants to generate first-person life story narratives, and then task independent LLMs to recover personality scores from those narratives alone. We show that personality scores can be recovered from the generated narratives at levels approaching human test-retest reliability (mean r = 0.750, 85% of the human ceiling), and that recovery is robust across 10 LLM narrative generators and 3 LLM personality scorers spanning 6 providers. Decomposing systematic biases reveals that scoring models achieve their accuracy while counteracting alignment-induced defaults. Content analysis of the generated narratives shows that personality conditioning produces behaviourally differentiated text: nine of ten coded features correlate significantly with the same features in participants' real conversations, and personality-driven emotional reactivity patterns in narratives replicate in real conversational data. These findings provide evidence that the personality-language relationship captured during pretraining supports robust encoding and decoding of individual differences, including characteristic emotional variability patterns that replicate in real human behaviour.