Constructing a Norm for Children's Scientific Drawing: Distribution Features Based on Semantic Similarity of Large Language Models
作者: Yi Zhang, Fan Wei, Jingyi Li, Yan Wang, Yanyan Yu, Jianli Chen, Zipo Cai, Xinyu Liu, Wei Wang, Sensen Yao, Peng Wang, Zhong Wang
分类: cs.CL, cs.AI
发布日期: 2025-02-21 (更新: 2025-08-27)
期刊: biology methods and protocols, 2025, 10(01)
DOI: 10.1093/biomethods/bpaf062
💡 一句话要点
构建儿童科学绘画规范:基于大语言模型语义相似度的分布特征
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 儿童绘画分析 大语言模型 语义相似度 科学教育 认知发展 word2vec 一致性偏差
📋 核心要点
- 现有儿童绘画分析方法依赖特定任务,生态效度低,且研究者主观性强,缺乏客观标准。
- 利用大语言模型识别儿童科学绘画,计算语义相似度,探索同一主题下绘画表达的一致性。
- 研究发现儿童绘画表达存在一致性,且与LLM识别准确率无关,并分析了影响因素。
📝 摘要(中文)
本研究旨在解决儿童绘画分析中任务依赖性和主观性问题。通过使用大语言模型(LLM)识别1420幅儿童科学绘画(涵盖9个科学主题/概念),并利用word2vec算法计算其语义相似度,探索同一主题下儿童绘画是否存在一致性表达。研究尝试建立儿童科学绘画的规范,为后续研究提供基准参考。结果表明,大多数绘画表达具有一致性,表现为语义相似度>0.8。一致性与LLM识别准确率无关,表明存在一致性偏差。通过Kendall秩相关系数考察了“样本量”、“抽象程度”和“关注点”对绘画的影响,并使用词频统计探索儿童是否通过复现课堂教学内容来表达抽象主题/概念。发现准确率是最敏感的指标,样本量和语义相似度等数据与之相关;课堂实验与教学目的之间的一致性也很重要,许多学生更关注实验本身而非其解释。
🔬 方法详解
问题定义:现有研究在分析儿童科学绘画以评估其概念理解时,存在两大痛点:一是绘画内容高度依赖于特定任务,导致结论的生态效度较低;二是绘画的解释过度依赖研究者的主观判断,缺乏客观标准和可重复性。
核心思路:本研究的核心思路是利用大语言模型(LLM)的语义理解能力,将儿童绘画的内容转化为可量化的语义表示,并通过计算这些语义表示之间的相似度,来客观地评估儿童在同一科学主题下的绘画表达是否具有一致性。这种方法旨在减少主观偏差,并为儿童科学绘画的分析提供一个更可靠的基准。
技术框架:该研究的技术框架主要包括以下几个阶段:1. 数据收集:收集涵盖9个科学主题的1420幅儿童科学绘画。2. LLM识别:使用大语言模型识别绘画中的元素和内容,将其转化为文本描述。3. 语义向量化:利用word2vec算法将文本描述转化为语义向量。4. 相似度计算:计算不同绘画的语义向量之间的相似度,评估表达的一致性。5. 影响因素分析:使用Kendall秩相关系数和词频统计等方法,分析样本量、抽象程度和关注点等因素对绘画表达的影响。
关键创新:本研究的关键创新在于将大语言模型应用于儿童绘画的分析,从而实现了对绘画内容的客观量化评估。与传统的主观解释方法相比,这种方法具有更高的可重复性和客观性。此外,研究还发现了绘画表达的一致性与LLM识别准确率之间的独立性,揭示了可能存在的一致性偏差。
关键设计:研究中使用了word2vec算法来计算语义相似度,这是一种常用的词嵌入方法,可以将词语映射到高维向量空间中,使得语义相似的词语在向量空间中的距离更近。此外,研究还使用了Kendall秩相关系数来评估不同因素对绘画表达的影响,这是一种非参数的统计方法,适用于评估变量之间的相关性。
📊 实验亮点
研究发现,大多数儿童科学绘画的语义相似度>0.8,表明在同一主题下,儿童的绘画表达具有较高的一致性。此外,研究还发现这种一致性与LLM的识别准确率无关,提示可能存在某种一致性偏差。准确率被认为是影响儿童绘画表达的最敏感指标,样本量和语义相似度等数据与之相关。
🎯 应用场景
该研究成果可应用于儿童认知发展评估、科学教育效果评估等领域。通过建立儿童科学绘画规范,可以为教师提供更客观的教学反馈,帮助他们了解学生的理解程度和潜在的认知偏差。此外,该方法还可以用于开发智能化的儿童绘画分析工具,辅助教育工作者进行个性化教学。
📄 摘要(原文)
The use of children's drawings to examining their conceptual understanding has been proven to be an effective method, but there are two major problems with previous research: 1. The content of the drawings heavily relies on the task, and the ecological validity of the conclusions is low; 2. The interpretation of drawings relies too much on the subjective feelings of the researchers. To address this issue, this study uses the Large Language Model (LLM) to identify 1420 children's scientific drawings (covering 9 scientific themes/concepts), and uses the word2vec algorithm to calculate their semantic similarity. The study explores whether there are consistent drawing representations for children on the same theme, and attempts to establish a norm for children's scientific drawings, providing a baseline reference for follow-up children's drawing research. The results show that the representation of most drawings has consistency, manifested as most semantic similarity>0.8. At the same time, it was found that the consistency of the representation is independent of the accuracy (of LLM's recognition), indicating the existence of consistency bias. In the subsequent exploration of influencing factors, we used Kendall rank correlation coefficient to investigate the effects of "sample size", "abstract degree", and "focus points" on drawings, and used word frequency statistics to explore whether children represented abstract themes/concepts by reproducing what was taught in class. It was found that accuracy (of LLM's recognition) is the most sensitive indicator, and data such as sample size and semantic similarity are related to it; The consistency between classroom experiments and teaching purpose is also an important factor, many students focus more on the experiments themselves rather than what they explain.