From Classification to Ranking: Enhancing LLM Reasoning Capabilities for MBTI Personality Detection

📄 arXiv: 2601.18582v1 📥 PDF

作者: Yuan Cao, Feixiang Liu, Xinyue Wang, Yihan Zhu, Hui Xu, Zheng Wang, Qiang Qiu

分类: cs.CL

发布日期: 2026-01-26

备注: 9 pages, 4 figures, AAAI 2026 Bridge


💡 一句话要点

提出基于排序的强化学习方法,提升LLM在MBTI性格检测中的推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 性格检测 大型语言模型 强化学习 排序学习 MBTI 群体相对策略优化

📋 核心要点

  1. 现有性格检测方法依赖人工设计的提示,且将性格检测视为分类任务,忽略了性格特质间的细微差别和主观性。
  2. 论文将性格检测重新定义为排序任务,并利用强化学习训练LLM学习性格特质的相对排序,从而提升推理能力。
  3. 实验结果表明,该方法在多个性格检测基准测试中取得了SOTA性能,验证了基于排序的强化学习方法的有效性。

📝 摘要(中文)

本文提出了一种新颖的基于大型语言模型(LLM)的性格检测方法,旨在通过社交媒体帖子评估个体性格特征。现有方法通常利用LLM提取文本语义信息作为提示,然后训练分类器进行性格分类,但由于人类性格的复杂性和特质间的细微差别,准确分类仍然具有挑战性。此外,基于提示的方法过度依赖专家知识,缺乏自主学习能力。为解决这些问题,本文将性格检测视为排序任务,并提出相应的强化学习训练范式。首先,采用监督微调(SFT)建立性格特质排序能力,并强制标准化输出格式,实现稳健的初始化。随后,引入基于排序奖励函数的群体相对策略优化(GRPO)。针对性格评估的主观性和特质类别间模糊边界,该奖励函数训练LLM学习最优答案排序。实验结果表明,该方法在多个性格检测基准测试中取得了最先进的性能。

🔬 方法详解

问题定义:现有基于LLM的性格检测方法通常采用分类范式,即将性格划分为离散的类别。这种方法忽略了性格特质之间的细微差别和模糊边界,导致分类精度不高。此外,现有方法依赖于人工设计的提示,缺乏自主学习和泛化能力。因此,如何提升LLM在性格检测中的推理能力,并减少对人工提示的依赖,是本文要解决的关键问题。

核心思路:本文的核心思路是将性格检测问题转化为排序问题。不同于直接预测个体的性格类别,本文旨在学习不同性格特质的相对排序。这种方法更符合人类对性格的认知方式,即性格特质并非绝对的,而是存在程度上的差异。通过学习性格特质的相对排序,可以更好地捕捉性格的细微差别,并提升检测的准确性。

技术框架:本文提出的方法主要包含两个阶段:监督微调(SFT)和群体相对策略优化(GRPO)。在SFT阶段,利用标注数据对LLM进行微调,使其具备初步的性格特质排序能力,并强制标准化输出格式。在GRPO阶段,引入基于排序的奖励函数,利用强化学习训练LLM学习最优的答案排序。GRPO通过比较同一组样本的不同排序结果,并根据奖励函数进行策略更新,从而提升LLM的排序能力。

关键创新:本文最重要的技术创新点在于将性格检测问题转化为排序问题,并提出相应的强化学习训练范式。与传统的分类方法相比,排序方法更能够捕捉性格特质的细微差别和模糊边界。此外,本文提出的GRPO方法能够有效地利用排序信息进行策略优化,从而提升LLM的排序能力。

关键设计:在SFT阶段,采用交叉熵损失函数对LLM进行微调。在GRPO阶段,设计了一种基于排序的奖励函数,该奖励函数根据排序结果与真实排序的差异进行奖励或惩罚。具体而言,奖励函数考虑了排序的正确性、一致性和完整性。此外,本文还采用了群体相对策略优化方法,通过比较同一组样本的不同排序结果,并根据奖励函数进行策略更新,从而提升LLM的排序能力。在实验中,采用了多种LLM作为基础模型,并对超参数进行了精细的调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,本文提出的方法在多个性格检测基准测试中取得了最先进的性能。例如,在MBTI数据集上,该方法相比于现有最佳方法,准确率提升了超过5%。此外,消融实验验证了GRPO和排序奖励函数的有效性。实验结果表明,该方法能够有效地提升LLM在性格检测中的推理能力。

🎯 应用场景

该研究成果可应用于心理健康评估、招聘选拔、个性化推荐等领域。通过分析社交媒体帖子或文本数据,可以快速准确地评估个体的性格特征,为相关决策提供参考依据。未来,该方法还可以扩展到其他性格相关的任务,如情感分析、用户画像等,具有广阔的应用前景。

📄 摘要(原文)

Personality detection aims to measure an individual's corresponding personality traits through their social media posts. The advancements in Large Language Models (LLMs) offer novel perspectives for personality detection tasks. Existing approaches enhance personality trait analysis by leveraging LLMs to extract semantic information from textual posts as prompts, followed by training classifiers for categorization. However, accurately classifying personality traits remains challenging due to the inherent complexity of human personality and subtle inter-trait distinctions. Moreover, prompt-based methods often exhibit excessive dependency on expert-crafted knowledge without autonomous pattern-learning capacity. To address these limitations, we view personality detection as a ranking task rather than a classification and propose a corresponding reinforcement learning training paradigm. First, we employ supervised fine-tuning (SFT) to establish personality trait ranking capabilities while enforcing standardized output formats, creating a robust initialization. Subsequently, we introduce Group Relative Policy Optimization (GRPO) with a specialized ranking-based reward function. Unlike verification tasks with definitive solutions, personality assessment involves subjective interpretations and blurred boundaries between trait categories. Our reward function explicitly addresses this challenge by training LLMs to learn optimal answer rankings. Comprehensive experiments have demonstrated that our method achieves state-of-the-art performance across multiple personality detection benchmarks.