Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?
作者: Caixin Kang, Tianyu Yan, Sitong Gong, Mingfang Zhang, Liangyang Ouyang, Ruicong Liu, Bo Zheng, Huchuan Lu, Kaipeng Zhang, Yoichi Sato, Yifei Huang
分类: cs.AI, cs.CV, cs.CY
发布日期: 2026-05-21
💡 一句话要点
提出GPR任务和MM-OCEAN数据集,揭示MLLM在人格感知中存在的偏见问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 人格感知 大型语言模型 行为理解 社会认知
📋 核心要点
- 现有MLLM人格感知评估仅依赖大五人格分数预测,忽略了模型是否真正理解行为与人格之间的联系。
- 论文提出GPR任务,要求模型基于可观察的行为证据进行人格推理,并构建了MM-OCEAN数据集。
- 实验表明,现有MLLM在人格感知中存在显著的偏见差距,即使评分正确,也缺乏行为依据。
📝 摘要(中文)
多模态大型语言模型(MLLMs)越来越多地应用于人机交互场景,其中人格感知至关重要。然而,现有的基准测试仅通过数值化的大五人格分数预测来评估这种能力,无法确定模型是否真正通过行为理解来感知人格,还是仅仅通过肤浅的模式匹配来进行预判。为了解决这个问题,本文做出了三项贡献。(i)一个新的任务:形式化了Grounded Personality Reasoning (GPR),要求MLLMs通过评分、推理和依据链将每个大五人格的评分锚定在可观察的证据中。(ii)一个新的数据集:发布了MM-OCEAN (1,104个视频,5,320个多项选择题),该数据集由一个多智能体管道生成,并经过人工验证,包含带时间戳的行为观察、基于证据的人格特质分析和七类基于线索的多项选择题。(iii)基准测试和分析:设计了一个三层评估(评分、推理、依据),以及四个样本级失败模式指标:偏见率(PR)、虚构率(CR)、整合失败率(IR)和整体依据率(HR),并对27个MLLM(13个闭源,14个开源)进行了基准测试。分析揭示了一个惊人的偏见差距:在整个领域中,51%的正确评分没有基于检索到的线索,并且整体依据率仅在0-33.5%之间。这些发现揭示了获得正确分数和正确推理原因之间的脱节,为MLLM中基于依据的社会认知绘制了路线图。
🔬 方法详解
问题定义:现有的人格感知评估方法,特别是针对多模态大型语言模型(MLLMs)的评估,主要集中在大五人格的数值预测上。这种方法无法区分模型是真正理解了行为与人格之间的关联,还是仅仅通过表面特征进行先入为主的判断。因此,现有的评估方法无法准确衡量MLLMs在人格感知方面的能力,并且忽略了模型可能存在的偏见。
核心思路:论文的核心思路是引入Grounded Personality Reasoning (GPR) 任务,该任务要求MLLMs不仅要预测人格特质,还要提供支持其预测的、基于可观察行为的证据。通过这种方式,可以迫使模型进行更深入的推理,并减少仅仅依赖表面特征进行判断的可能性。同时,论文构建了MM-OCEAN数据集,为GPR任务提供了高质量的训练和评估数据。
技术框架:整体框架包含以下几个主要步骤:首先,模型接收一段视频作为输入。然后,模型需要预测视频中人物的大五人格特质评分。接下来,模型需要从数据集中检索与该人格特质相关的行为线索。最后,模型需要解释为什么检索到的行为线索支持其人格特质评分。整个过程形成一个评分、推理和依据链,确保模型的人格感知是基于可观察的证据。
关键创新:论文的关键创新在于提出了GPR任务,它将人格感知与行为依据联系起来,从而更全面地评估MLLMs的人格感知能力。此外,论文还设计了一套新的评估指标,包括偏见率(PR)、虚构率(CR)、整合失败率(IR)和整体依据率(HR),用于分析MLLMs在GPR任务中的表现,并揭示模型存在的偏见问题。
关键设计:MM-OCEAN数据集包含1,104个视频和5,320个多项选择题。数据集的构建采用了多智能体管道,并经过人工验证,以确保数据的质量。数据集包含带时间戳的行为观察、基于证据的人格特质分析和七类基于线索的多项选择题。在评估过程中,论文使用了27个MLLMs(13个闭源,14个开源)进行基准测试,并分析了模型在评分、推理和依据三个层面的表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有MLLM在GPR任务中表现不佳,存在显著的偏见差距。具体来说,51%的正确评分没有基于检索到的线索,并且整体依据率仅在0-33.5%之间。这些结果揭示了现有MLLM在人格感知方面存在的局限性,并为未来的研究方向提供了重要的启示。
🎯 应用场景
该研究成果可应用于人机交互、虚拟助手、社交机器人等领域。通过提高MLLM人格感知的准确性和可靠性,可以改善人机交互体验,使机器能够更好地理解人类行为和情感,从而提供更个性化和更有效的服务。此外,该研究还有助于减少AI系统中的偏见,促进公平和可信赖的人工智能应用。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) are increasingly deployed in human-facing roles where personality perception is critical, yet existing benchmarks evaluate this capability solely on numerical Big Five score prediction, leaving open whether models truly perceive personality through behavioral understanding or merely prejudge through superficial pattern matching. We address this gap with three contributions. (i) A new task: we formalize Grounded Personality Reasoning (GPR), which requires MLLMs to anchor each Big Five rating in observable evidence through a chain of rating, reasoning, and grounding. (ii) A new dataset: we release MM-OCEAN (1,104 videos, 5,320 MCQs), produced by a multi-agent pipeline with human verification, with timestamped behavioral observations, evidence-grounded trait analyses, and seven categories of cue-grounding MCQs. (iii) Benchmark and analysis: we design a three-tier evaluation (rating, reasoning, grounding) plus four sample-level failure-mode metrics: Prejudice Rate (PR), Confabulation Rate (CR), Integration-failure Rate (IR), and Holistic-grounding Rate (HR), and benchmark 27 MLLMs (13 closed, 14 open). The analysis uncovers a striking Prejudice Gap: across the field, 51% of correct ratings are not grounded in retrieved cues, and the Holistic-Grounding Rate spans only 0-33.5%. These findings expose a disconnect between getting the right score and reasoning for the right reason, charting a roadmap for grounded social cognition in MLLMs.