From Post To Personality: Harnessing LLMs for MBTI Prediction in Social Media

📄 arXiv: 2509.04461v1 📥 PDF

作者: Tian Ma, Kaiyu Feng, Yu Rong, Kangfei Zhao

分类: cs.CL, cs.SI

发布日期: 2025-08-28

期刊: CIKM 2025 Short Paper (Technical Report)

DOI: 10.1145/3746252.3760813


💡 一句话要点

提出PostToPersonality框架,利用LLM进行社交媒体MBTI性格预测,缓解幻觉并解决数据不平衡问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: MBTI性格预测 大型语言模型 检索增强生成 合成少数类过采样 社交媒体分析

📋 核心要点

  1. 社交媒体内容性格预测至关重要,但现有方法难以有效利用大型语言模型(LLM)的潜力。
  2. PostToPersonality (PtoP)框架结合检索增强生成和合成过采样微调,提升LLM在MBTI预测中的准确性。
  3. 实验结果表明,PtoP在真实数据集上超越了多种机器学习和深度学习基线,实现了显著的性能提升。

📝 摘要(中文)

本文提出PostToPersonality (PtoP),一种基于大型语言模型(LLM)的框架,用于从社交媒体帖子中预测个体的Myers Briggs Type Indicator (MBTI)性格类型。直接利用LLM进行MBTI预测面临两大挑战:LLM固有的幻觉问题以及MBTI类型在人群中自然存在的不平衡分布。PtoP利用检索增强生成与上下文学习来缓解LLM中的幻觉。此外,通过合成少数类过采样微调预训练LLM,并通过生成合成样本来平衡类别不平衡,从而提高模型在MBTI理解方面的规范性。在真实社交媒体数据集上进行的实验表明,与10个机器学习和深度学习基线相比,PtoP实现了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决从社交媒体帖子中准确预测个体MBTI性格类型的问题。现有方法,特别是直接应用LLM的方法,面临两个主要痛点:一是LLM固有的幻觉问题,即生成不真实或不一致的内容;二是MBTI类型在人群中分布不平衡,导致模型在少数类别上的预测性能较差。

核心思路:论文的核心思路是结合检索增强生成(Retrieval Augmented Generation, RAG)和合成少数类过采样(Synthetic Minority Oversampling)来解决上述问题。RAG通过检索相关信息来减少LLM的幻觉,而合成过采样则通过生成新的合成样本来平衡类别分布,从而提高模型在少数类别上的预测能力。

技术框架:PtoP框架主要包含两个阶段:首先,利用检索增强生成(RAG)缓解LLM的幻觉问题。具体来说,对于给定的社交媒体帖子,系统检索与该帖子相关的外部知识,并将这些知识作为上下文提供给LLM,以指导其生成更准确的MBTI预测。其次,通过合成少数类过采样(SMOTE)微调预训练LLM,以解决类别不平衡问题。SMOTE算法生成新的合成样本,增加少数类别的样本数量,从而平衡类别分布。

关键创新:论文的关键创新在于将检索增强生成和合成少数类过采样相结合,应用于基于LLM的MBTI性格预测。这种结合有效地缓解了LLM的幻觉问题,并解决了类别不平衡问题,从而提高了MBTI预测的准确性和鲁棒性。与现有方法相比,PtoP更有效地利用了LLM的潜力,并克服了其固有的局限性。

关键设计:在检索增强生成阶段,论文可能采用了特定的检索模型(例如,基于向量相似度的检索)来检索相关知识。在合成少数类过采样阶段,论文可能采用了SMOTE算法的具体变体,并调整了生成合成样本的数量和方式。此外,论文可能还设计了特定的损失函数或训练策略,以进一步提高模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PtoP在真实社交媒体数据集上取得了state-of-the-art的性能,显著优于10个机器学习和深度学习基线模型。具体的性能提升幅度未知,但摘要强调了其超越现有技术的优势。实验结果验证了检索增强生成和合成少数类过采样在提高LLM性格预测准确性方面的有效性。

🎯 应用场景

该研究成果可应用于心理学、社会学、市场营销等领域。例如,可以帮助心理学家更好地理解个体性格特征,为社交媒体用户提供个性化推荐,或辅助企业进行精准营销。未来,该技术还可扩展到其他性格分析任务,例如职业倾向预测、人际关系分析等。

📄 摘要(原文)

Personality prediction from social media posts is a critical task that implies diverse applications in psychology and sociology. The Myers Briggs Type Indicator (MBTI), a popular personality inventory, has been traditionally predicted by machine learning (ML) and deep learning (DL) techniques. Recently, the success of Large Language Models (LLMs) has revealed their huge potential in understanding and inferring personality traits from social media content. However, directly exploiting LLMs for MBTI prediction faces two key challenges: the hallucination problem inherent in LLMs and the naturally imbalanced distribution of MBTI types in the population. In this paper, we propose PostToPersonality (PtoP), a novel LLM based framework for MBTI prediction from social media posts of individuals. Specifically, PtoP leverages Retrieval Augmented Generation with in context learning to mitigate hallucination in LLMs. Furthermore, we fine tune a pretrained LLM to improve model specification in MBTI understanding with synthetic minority oversampling, which balances the class imbalance by generating synthetic samples. Experiments conducted on a real world social media dataset demonstrate that PtoP achieves state of the art performance compared with 10 ML and DL baselines.