ALIGNS: Unlocking nomological networks in psychological measurement through a large language model
作者: Kai R. Larsen, Sen Yan, Roland M. Mueller, Lan Sang, Mikko Rönkkö, Ravi Starzl, Donald Edmondson
分类: cs.CL, cs.AI, cs.LG, stat.ME
发布日期: 2025-09-10 (更新: 2025-09-18)
💡 一句话要点
ALIGNS:利用大型语言模型解锁心理测量中的语义网络,提升效度验证。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心理测量 语义网络 大型语言模型 效度验证 问卷调查
📋 核心要点
- 心理测量领域长期面临语义网络构建难题,阻碍了概念有效性的验证,影响临床试验和公共政策的准确性。
- ALIGNS 采用大型语言模型,通过学习大量已验证的问卷测量数据,自动生成全面的语义网络,揭示概念间的潜在关系。
- 实验结果表明,ALIGNS 能够有效识别情绪困扰的单一维度,发现儿童气质测量的新维度,并得到心理测量学专家的认可。
📝 摘要(中文)
心理测量对许多学科至关重要。尽管测量技术不断进步,但构建语义网络(概念和测量之间关系的理论图谱,用于建立效度)仍然是一个挑战,即使在 Cronbach 和 Meehl 提出将其作为验证基础的 70 年后。这种局限性具有实际后果:临床试验可能无法检测到治疗效果,公共政策可能针对错误的结果。我们介绍了“利用潜在指标生成语义结构分析”(ALIGNS),这是一个基于大型语言模型的系统,使用经过验证的问卷测量进行训练。ALIGNS 提供了三个全面的语义网络,包含心理学、医学、社会政策和其他领域的超过 55 万个指标。这是大型语言模型首次应用于解决测量验证中的一个基础问题。我们报告了用于开发模型的分类准确性测试,以及三个评估。在第一个评估中,广泛使用的 NIH PROMIS 焦虑和抑郁工具被证明可以收敛到情绪困扰的单一维度。第二个评估检查儿童气质测量,并确定了当前框架未捕获的四个潜在维度,并质疑一个现有维度。第三个评估是一个适用性检查,专家心理测量学家评估了该系统的重要性、可访问性和适用性。ALIGNS 在 nomologicalnetwork.org 上免费提供,通过大规模语义分析补充了传统的验证方法。
🔬 方法详解
问题定义:论文旨在解决心理测量领域中语义网络构建的难题。现有的心理测量方法在建立概念和测量之间的理论联系方面存在局限性,导致效度验证困难,进而影响临床试验和公共政策的有效性。传统方法依赖于专家知识和手工分析,效率低且难以处理大规模数据。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大语义理解和生成能力,自动构建和分析语义网络。通过训练 LLM 学习大量已验证的问卷测量数据,使其能够识别概念之间的潜在关系,从而为心理测量提供更全面、更高效的效度验证方法。这种方法旨在弥补传统方法的不足,并为心理测量领域带来新的视角。
技术框架:ALIGNS 系统的整体架构包括数据收集、模型训练和语义网络生成三个主要阶段。首先,收集大量已验证的问卷测量数据,涵盖心理学、医学、社会政策等多个领域。然后,使用这些数据训练大型语言模型,使其能够理解和生成与心理测量相关的文本。最后,利用训练好的模型生成包含超过 55 万个指标的语义网络,并提供可视化界面供用户探索和分析。
关键创新:ALIGNS 最重要的技术创新点在于将大型语言模型应用于心理测量领域,以解决语义网络构建的难题。与传统方法相比,ALIGNS 能够自动处理大规模数据,发现概念之间的潜在关系,并提供更全面、更客观的效度验证方法。此外,ALIGNS 还提供了一个可公开访问的平台,方便研究人员和实践者使用和评估。
关键设计:ALIGNS 的关键设计包括选择合适的预训练语言模型、设计有效的训练策略以及构建清晰易懂的语义网络可视化界面。论文中提到了使用分类准确性测试来开发模型,但没有详细说明具体的参数设置、损失函数或网络结构等技术细节。这些细节可能属于商业机密或仍在进一步研究中。
📊 实验亮点
ALIGNS 通过三个评估验证了其有效性。NIH PROMIS 焦虑和抑郁工具的评估表明,ALIGNS 能够将这些工具收敛到情绪困扰的单一维度。儿童气质测量的评估发现了当前框架未捕获的四个潜在维度,并质疑了一个现有维度。专家心理测量学家的评估也肯定了 ALIGNS 的重要性、可访问性和适用性。这些结果表明,ALIGNS 能够为心理测量提供有价值的见解。
🎯 应用场景
ALIGNS 在心理学、医学、社会政策等领域具有广泛的应用前景。它可以帮助研究人员更有效地验证心理测量工具的效度,提高临床试验的准确性,并为公共政策的制定提供更可靠的依据。ALIGNS 的免费开放访问特性,有望促进心理测量领域的创新和发展,并为相关领域的实践者提供有力的支持。
📄 摘要(原文)
Psychological measurement is critical to many disciplines. Despite advances in measurement, building nomological networks, theoretical maps of how concepts and measures relate to establish validity, remains a challenge 70 years after Cronbach and Meehl proposed them as fundamental to validation. This limitation has practical consequences: clinical trials may fail to detect treatment effects, and public policy may target the wrong outcomes. We introduce Analysis of Latent Indicators to Generate Nomological Structures (ALIGNS), a large language model-based system trained with validated questionnaire measures. ALIGNS provides three comprehensive nomological networks containing over 550,000 indicators across psychology, medicine, social policy, and other fields. This represents the first application of large language models to solve a foundational problem in measurement validation. We report classification accuracy tests used to develop the model, as well as three evaluations. In the first evaluation, the widely used NIH PROMIS anxiety and depression instruments are shown to converge into a single dimension of emotional distress. The second evaluation examines child temperament measures and identifies four potential dimensions not captured by current frameworks, and questions one existing dimension. The third evaluation, an applicability check, engages expert psychometricians who assess the system's importance, accessibility, and suitability. ALIGNS is freely available at nomologicalnetwork.org, complementing traditional validation methods with large-scale nomological analysis.