Neural network embeddings recover value dimensions from psychometric survey items on par with human data
作者: Max Pellert, Clemens M. Lechner, Indira Sen, Markus Strohmaier
分类: cs.AI, cs.CL
发布日期: 2025-09-29 (更新: 2026-01-29)
💡 一句话要点
利用神经网络嵌入和SQuID方法,从心理测量问卷条目中恢复人类价值观维度,效果与人类数据相当
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心理测量学 价值观维度 神经网络嵌入 大型语言模型 问卷条目嵌入差异 SQuID 语义理解
📋 核心要点
- 现有方法在心理测量学中难以在无需领域知识或数据标注的情况下获得维度间的负相关性。
- 论文提出使用大型语言模型嵌入和SQuID方法,无需微调或重新标注即可恢复人类价值观结构。
- 实验表明,该方法能解释维度间相似性中55%的方差,且泛化性良好,适用于多种性格量表。
📝 摘要(中文)
本文证明,通过大型语言模型获得的嵌入,在经过“问卷条目嵌入差异”(SQuID)处理后,能够恢复从修订版肖像价值观问卷(PVQ-RR)的人工评估中获得的人类价值观结构。我们比较了多个嵌入模型在包括内部一致性、维度相关性和多维尺度配置等多个评估指标上的表现。与以往的方法不同,SQuID解决了在不需要特定领域微调或重新标注训练数据的情况下,获得维度之间负相关性的挑战。定量分析表明,与人类数据相比,我们基于嵌入的方法解释了维度间相似性中55%的方差。多维尺度配置显示与来自49个不同国家/地区的汇总人类数据对齐。跨三个性格量表(IPIP、BFI-2、HEXACO)的泛化测试表明,SQuID始终增加相关性范围,表明其适用性超出价值观理论。这些结果表明,语义嵌入可以有效地复制先前通过广泛的人类调查建立的心理测量结构。该方法在成本、可扩展性和灵活性方面具有显著优势,同时保持与传统方法相当的质量。我们的发现对心理测量学和社会科学研究具有重要意义,提供了一种补充方法,可以扩展测量工具中代表的人类行为和经验的范围。
🔬 方法详解
问题定义:论文旨在解决心理测量学中,如何高效且低成本地从问卷条目中提取人类价值观维度的问题。现有方法通常依赖于人工标注和领域专家知识,成本高昂且难以扩展。此外,在没有特定领域微调或重新标注训练数据的情况下,现有方法难以获得维度之间的负相关性,这限制了其在复杂心理测量结构中的应用。
核心思路:论文的核心思路是利用大型语言模型(LLM)的语义理解能力,将问卷条目转化为高维语义嵌入。然后,通过提出的“问卷条目嵌入差异”(SQuID)方法,从这些嵌入中提取出价值观维度。SQuID的关键在于它能够自动地学习维度之间的关系,包括负相关性,而无需额外的领域知识或人工干预。
技术框架:整体框架包括以下几个阶段:1) 使用大型语言模型(如BERT、RoBERTa等)将问卷条目转换为语义嵌入。2) 使用SQuID方法处理这些嵌入,SQuID计算条目嵌入之间的差异,并学习维度之间的关系。3) 使用评估指标(如内部一致性、维度相关性和多维尺度配置)评估提取出的价值观维度与人类数据的匹配程度。
关键创新:最重要的技术创新点在于SQuID方法,它能够在没有领域特定微调或数据重新标注的情况下,自动学习维度之间的关系,包括负相关性。这与现有方法形成了本质区别,现有方法通常需要人工干预或额外的训练数据才能处理负相关性。
关键设计:SQuID方法的核心在于计算问卷条目嵌入之间的差异,并使用这些差异来学习维度之间的关系。具体的计算方式和参数设置在论文中进行了详细描述。此外,论文还使用了多种评估指标来验证方法的有效性,包括内部一致性(Cronbach's alpha)、维度相关性(Pearson correlation)和多维尺度配置(MDS)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于嵌入的方法能够解释维度间相似性中55%的方差,与人类数据相比具有可比性。此外,该方法在跨三个性格量表(IPIP、BFI-2、HEXACO)的泛化测试中表现良好,表明其具有较强的通用性。SQuID方法在无需领域特定微调或数据重新标注的情况下,能够自动学习维度之间的关系,包括负相关性,这是现有方法难以实现的。
🎯 应用场景
该研究成果可广泛应用于心理测量学、社会科学研究、市场调研等领域。它可以帮助研究人员更高效、低成本地构建和验证心理测量工具,从而更深入地了解人类行为和经验。此外,该方法还可以用于个性化推荐系统、人才招聘等领域,通过分析用户的问卷数据,提供更精准的服务。
📄 摘要(原文)
We demonstrate that embeddings derived from large language models, when processed with "Survey and Questionnaire Item Embeddings Differentials" (SQuID), can recover the structure of human values obtained from human rater judgments on the Revised Portrait Value Questionnaire (PVQ-RR). We compare multiple embedding models across a number of evaluation metrics including internal consistency, dimension correlations and multidimensional scaling configurations. Unlike previous approaches, SQuID addresses the challenge of obtaining negative correlations between dimensions without requiring domain-specific fine-tuning or training data re-annotation. Quantitative analysis reveals that our embedding-based approach explains 55% of variance in dimension-dimension similarities compared to human data. Multidimensional scaling configurations show alignment with pooled human data from 49 different countries. Generalizability tests across three personality inventories (IPIP, BFI-2, HEXACO) demonstrate that SQuID consistently increases correlation ranges, suggesting applicability beyond value theory. These results show that semantic embeddings can effectively replicate psychometric structures previously established through extensive human surveys. The approach offers substantial advantages in cost, scalability and flexibility while maintaining comparable quality to traditional methods. Our findings have significant implications for psychometrics and social science research, providing a complementary methodology that could expand the scope of human behavior and experience represented in measurement tools.