S-DAT: A Multilingual, GenAI-Driven Framework for Automated Divergent Thinking Assessment

📄 arXiv: 2505.09068v2 📥 PDF

作者: Jennifer Haase, Paul H. P. Hanel, Sebastian Pokutta

分类: cs.CL, cs.HC

发布日期: 2025-05-14 (更新: 2025-10-23)

DOI: 10.1609/aies.v8i2.36622


💡 一句话要点

S-DAT:一种基于GenAI的多语言发散思维自动评估框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 发散思维 创造力评估 大型语言模型 多语言嵌入 语义距离

📋 核心要点

  1. 传统创造力评估方法存在耗时、语言依赖和主观性强等问题,限制了其大规模应用和跨文化研究。
  2. S-DAT利用大型语言模型和多语言嵌入计算语义距离,作为与语言无关的发散思维评估指标。
  3. 实验结果表明,S-DAT在多种语言中表现出稳健的评分一致性,并具有良好的效度。

📝 摘要(中文)

本文介绍了一种可扩展、多语言的发散思维(DT)自动评估框架S-DAT(Synthetic-Divergent Association Task)。传统的创造力评估通常耗费大量人力,具有语言特异性,并且依赖于主观的人工评分,这限制了它们的可扩展性和跨文化适用性。相比之下,S-DAT利用大型语言模型和先进的多语言嵌入来计算语义距离,这是一种与语言无关的DT代理。我们在包括英语、西班牙语、德语、俄语、印地语和日语(汉字、平假名、片假名)在内的11种不同语言中评估了S-DAT,证明了其在不同语言环境中的稳健性和一致性评分。与之前的DAT方法不同,S-DAT显示出与其他DT测量的一致效度,以及与收敛思维的正确区分效度。这种跨语言的灵活性使得更具包容性的全球规模创造力研究成为可能,解决了早期方法的主要局限性。S-DAT为在不同人群中进行更公平、更全面的认知灵活性评估提供了一个强大的工具,并且可以在线免费评估:https://sdat.iol.zib.de/。

🔬 方法详解

问题定义:论文旨在解决传统发散思维评估方法的局限性,包括耗时的人工评分、语言特异性以及主观性偏差。现有方法难以进行大规模、跨文化的研究,并且评估结果可能受到评分者个人偏好的影响。

核心思路:论文的核心思路是利用大型语言模型(LLM)生成语义空间,并通过计算概念之间的语义距离来量化发散思维。这种方法的核心在于将发散思维转化为语义空间中的探索过程,语义距离越远,则代表思维越发散。通过使用多语言嵌入,该方法可以实现跨语言的评估。

技术框架:S-DAT框架主要包含以下几个阶段:1) 提示词工程:设计合适的提示词,引导LLM生成与给定刺激词相关的联想词。2) 联想词生成:使用LLM(例如,GPT-3)根据提示词生成一系列联想词。3) 语义嵌入:将刺激词和联想词嵌入到多语言语义空间中,例如使用Sentence-BERT的多语言版本。4) 语义距离计算:计算刺激词和每个联想词之间的语义距离,常用的距离度量包括余弦相似度。5) 发散思维评分:基于语义距离的统计量(例如,平均距离、最大距离)来评估发散思维水平。

关键创新:S-DAT的关键创新在于其利用LLM和多语言嵌入,将发散思维评估转化为一个与语言无关的语义距离计算问题。与传统方法相比,S-DAT无需人工评分,具有更高的自动化程度和可扩展性。此外,S-DAT的多语言特性使其能够进行跨文化的发散思维研究。

关键设计:在提示词工程方面,需要设计能够有效激发LLM生成多样化联想词的提示词。在语义嵌入方面,选择合适的多语言嵌入模型至关重要,需要考虑模型的语言覆盖范围和语义表示能力。在语义距离计算方面,可以选择不同的距离度量方法,并根据具体应用场景进行调整。此外,还需要对发散思维评分进行标准化,以消除不同语言和文化背景下的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

S-DAT在11种不同语言中进行了评估,结果表明其评分具有高度的一致性和稳健性。与传统的发散思维评估方法相比,S-DAT具有更好的效度,能够有效区分发散思维和收敛思维。此外,S-DAT的在线评估平台为研究者和从业者提供了一个便捷的工具,可以随时随地进行发散思维评估。

🎯 应用场景

S-DAT可广泛应用于教育、心理学、人才选拔等领域。在教育领域,它可以用于评估学生的创造性思维能力,并为个性化教学提供参考。在心理学领域,它可以用于研究不同人群的发散思维差异,以及发散思维与心理健康之间的关系。在人才选拔领域,它可以作为一种客观、高效的创造力评估工具,帮助企业筛选具有创新潜力的候选人。未来,S-DAT有望成为一种通用的创造力评估标准,促进全球范围内的创新研究和实践。

📄 摘要(原文)

This paper introduces S-DAT (Synthetic-Divergent Association Task), a scalable, multilingual framework for automated assessment of divergent thinking (DT) -a core component of human creativity. Traditional creativity assessments are often labor-intensive, language-specific, and reliant on subjective human ratings, limiting their scalability and cross-cultural applicability. In contrast, S-DAT leverages large language models and advanced multilingual embeddings to compute semantic distance -- a language-agnostic proxy for DT. We evaluate S-DAT across eleven diverse languages, including English, Spanish, German, Russian, Hindi, and Japanese (Kanji, Hiragana, Katakana), demonstrating robust and consistent scoring across linguistic contexts. Unlike prior DAT approaches, the S-DAT shows convergent validity with other DT measures and correct discriminant validity with convergent thinking. This cross-linguistic flexibility allows for more inclusive, global-scale creativity research, addressing key limitations of earlier approaches. S-DAT provides a powerful tool for fairer, more comprehensive evaluation of cognitive flexibility in diverse populations and can be freely assessed online: https://sdat.iol.zib.de/.