PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits
作者: Loka Li, Wong Yu Kang, Minghao Fu, Guangyi Chen, Zhenhao Chen, Gongxu Luo, Yuewen Sun, Salman Khan, Peter Spirtes, Kun Zhang
分类: cs.LG, cs.CV
发布日期: 2025-09-14
💡 一句话要点
PersonaX:构建包含LLM推断行为特征的多模态数据集,促进行为分析与因果推理。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态数据集 行为特征分析 因果表征学习 大型语言模型 人机交互
📋 核心要点
- 现有资源缺乏结合行为描述、面部属性和传记信息的多模态数据集,限制了对人类行为特征的深入理解。
- 论文构建了PersonaX数据集,包含LLM推断的行为特征、面部图像和传记信息,用于多模态行为分析。
- 论文提出了一种新颖的因果表征学习框架,适用于多模态数据,并在合成和真实数据上验证了其有效性。
📝 摘要(中文)
为了更好地理解人类行为特征,并应用于人机交互、计算社会科学和个性化AI系统,本研究提出了PersonaX,一个包含多种模态数据集的集合。PersonaX包括CelebPersona(9444位公众人物)和AthlePersona(4181位专业运动员)。每个数据集包含由高性能大型语言模型推断的行为特征评估、面部图像和结构化的传记特征。我们从文本描述中提取高级特征分数,并应用统计独立性测试来分析其与其他模态的关系。此外,我们还引入了一种新颖的因果表征学习(CRL)框架,专门用于多模态和多测量数据,并提供了理论上的可识别性保证。在合成数据和真实数据上的实验表明了该方法的有效性。PersonaX通过统一结构化和非结构化分析,为研究LLM推断的行为特征与视觉和传记属性之间的关系奠定了基础,从而推进了多模态特征分析和因果推理。
🔬 方法详解
问题定义:现有方法缺乏整合多种模态信息(如面部图像、传记信息和行为描述)的数据集,难以全面分析人类行为特征及其相互关系。此外,如何从多模态数据中进行有效的因果推理也是一个挑战。
核心思路:论文的核心思路是构建一个包含多种模态信息的大规模数据集PersonaX,并利用大型语言模型(LLM)推断行为特征。同时,提出一种新的因果表征学习(CRL)框架,用于分析多模态数据中的因果关系。
技术框架:PersonaX数据集包含CelebPersona和AthlePersona两个子集,分别包含公众人物和运动员的信息。每个样本包含面部图像、结构化的传记特征以及由LLM推断的行为特征评估。研究首先从文本描述中提取高级特征分数,然后应用统计独立性测试来分析其与其他模态的关系。接着,利用提出的CRL框架进行因果推理。
关键创新:该研究的关键创新在于:1) 构建了包含LLM推断行为特征的多模态数据集PersonaX;2) 提出了一种新颖的因果表征学习(CRL)框架,专门用于多模态和多测量数据,并提供了理论上的可识别性保证。
关键设计:CRL框架的设计考虑了多模态数据的特点,通过学习潜在的因果表征,从而能够更好地进行因果推理。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细描述,但此处未知具体细节。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的因果表征学习框架在合成数据和真实数据上均表现出良好的性能。通过对PersonaX数据集的分析,揭示了不同模态之间的关系,并验证了LLM推断行为特征的有效性。具体的性能数据和提升幅度未知。
🎯 应用场景
该研究成果可应用于人机交互、计算社会科学和个性化AI系统等领域。例如,可以用于构建更智能的推荐系统,根据用户的面部特征、传记信息和行为特征来提供个性化的服务。此外,还可以用于研究社会行为的潜在原因,从而更好地理解人类社会。
📄 摘要(原文)
Understanding human behavior traits is central to applications in human-computer interaction, computational social science, and personalized AI systems. Such understanding often requires integrating multiple modalities to capture nuanced patterns and relationships. However, existing resources rarely provide datasets that combine behavioral descriptors with complementary modalities such as facial attributes and biographical information. To address this gap, we present PersonaX, a curated collection of multimodal datasets designed to enable comprehensive analysis of public traits across modalities. PersonaX consists of (1) CelebPersona, featuring 9444 public figures from diverse occupations, and (2) AthlePersona, covering 4181 professional athletes across 7 major sports leagues. Each dataset includes behavioral trait assessments inferred by three high-performing large language models, alongside facial imagery and structured biographical features. We analyze PersonaX at two complementary levels. First, we abstract high-level trait scores from text descriptions and apply five statistical independence tests to examine their relationships with other modalities. Second, we introduce a novel causal representation learning (CRL) framework tailored to multimodal and multi-measurement data, providing theoretical identifiability guarantees. Experiments on both synthetic and real-world data demonstrate the effectiveness of our approach. By unifying structured and unstructured analysis, PersonaX establishes a foundation for studying LLM-inferred behavioral traits in conjunction with visual and biographical attributes, advancing multimodal trait analysis and causal reasoning.