Using AI to replicate human experimental results: a motion study

📄 arXiv: 2507.10342v1 📥 PDF

作者: Rosa Illan Castillo, Javier Valenzuela

分类: cs.CL

发布日期: 2025-07-14


💡 一句话要点

利用AI复现人类实验结果:一项基于动作研究的语言学探索

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心理语言学 情感计算 动作研究 实验复现

📋 核心要点

  1. 现有语言学研究依赖耗时的人工实验,难以进行大规模研究,且存在主观性偏差。
  2. 利用大型语言模型(LLMs)模拟人类的语言判断,旨在验证LLMs在语言学研究中的可靠性。
  3. 实验结果表明,LLMs在多个心理语言学任务中与人类判断高度一致,相关性显著。

📝 摘要(中文)

本文探讨了大型语言模型(LLMs)作为语言学研究中可靠分析工具的潜力,重点关注涉及动作方式动词的时间表达中情感意义的涌现。尽管像GPT-4这样的LLM在一系列任务中表现出前景,但它们复现细微人类判断的能力仍受到审查。我们首先通过人类参与者进行了四项心理语言学研究(关于涌现意义、效价转移、情感语境中的动词选择以及句子-表情符号关联),然后使用LLM复制了相同的任务。所有研究的结果都表明,人类和AI的反应之间存在惊人的一致性,统计分析(例如,Spearman's rho = .73-.96)表明,在评级模式和分类选择中都存在很强的相关性。虽然在某些情况下观察到细微的差异,但这些差异并未改变整体的解释性结果。这些发现提供了令人信服的证据,表明LLM可以增强传统的人类实验,从而在不影响解释有效性的前提下实现更大规模的研究。这种一致性不仅加强了先前基于人类的发现的经验基础,而且还为通过AI进行假设生成和数据扩展开辟了可能性。最终,我们的研究支持使用LLM作为语言学研究中可信且信息丰富的合作者。

🔬 方法详解

问题定义:论文旨在解决语言学研究中依赖人工实验的局限性,即实验成本高、规模受限以及潜在的主观性偏差。现有方法难以高效且客观地分析大规模语言数据,尤其是在情感意义等细微的语言现象方面。

核心思路:论文的核心思路是利用大型语言模型(LLMs)模拟人类的语言判断能力,通过对比LLMs和人类在相同语言学任务中的表现,验证LLMs作为语言学研究工具的可靠性和有效性。这种方法旨在降低实验成本,扩大研究规模,并减少主观性偏差。

技术框架:论文的技术框架包括以下几个主要阶段: 1. 设计四项心理语言学实验,涵盖涌现意义、效价转移、情感语境中的动词选择以及句子-表情符号关联。 2. 首先,招募人类参与者完成这些实验,收集人类的语言判断数据。 3. 然后,使用LLM(具体为GPT-4)复制相同的实验,输入相同的实验材料,并记录LLM的输出。 4. 对比分析人类和LLM的实验结果,使用统计方法(如Spearman相关系数)评估两者的一致性。 5. 分析差异,并讨论LLM在语言学研究中的潜在应用和局限性。

关键创新:论文的关键创新在于将大型语言模型应用于心理语言学实验的复现,并验证了LLMs在模拟人类语言判断方面的能力。与传统的基于规则或统计模型的自然语言处理方法不同,该研究直接利用LLMs的生成能力和知识库来模拟人类的语言理解和情感感知。

关键设计:论文的关键设计包括: 1. 精心设计的心理语言学实验,确保能够捕捉到细微的语言现象,如情感意义的涌现和效价转移。 2. 使用GPT-4作为LLM,因为它在语言理解和生成方面表现出色。 3. 使用Spearman相关系数等统计方法,量化评估人类和LLM实验结果的一致性。 4. 对比分析人类和LLM的差异,并讨论LLM在语言学研究中的潜在局限性。

📊 实验亮点

研究结果显示,LLMs在四项心理语言学实验中与人类判断高度一致,Spearman相关系数在0.73到0.96之间,表明LLMs能够有效复现人类的语言判断。尽管存在细微差异,但整体解释性结果并未受到影响。该研究为LLMs在语言学研究中的应用提供了有力证据。

🎯 应用场景

该研究成果可应用于语言学、心理学、情感计算等领域。LLMs可辅助语言学家进行大规模语料分析、假设生成和验证,加速语言学研究进程。在情感计算领域,可利用LLMs理解和生成带有情感色彩的文本,提升情感识别和情感对话系统的性能。未来,LLMs有望成为语言学研究的重要工具,促进相关领域的发展。

📄 摘要(原文)

This paper explores the potential of large language models (LLMs) as reliable analytical tools in linguistic research, focusing on the emergence of affective meanings in temporal expressions involving manner-of-motion verbs. While LLMs like GPT-4 have shown promise across a range of tasks, their ability to replicate nuanced human judgements remains under scrutiny. We conducted four psycholinguistic studies (on emergent meanings, valence shifts, verb choice in emotional contexts, and sentence-emoji associations) first with human participants and then replicated the same tasks using an LLM. Results across all studies show a striking convergence between human and AI responses, with statistical analyses (e.g., Spearman's rho = .73-.96) indicating strong correlations in both rating patterns and categorical choices. While minor divergences were observed in some cases, these did not alter the overall interpretative outcomes. These findings offer compelling evidence that LLMs can augment traditional human-based experimentation, enabling broader-scale studies without compromising interpretative validity. This convergence not only strengthens the empirical foundation of prior human-based findings but also opens possibilities for hypothesis generation and data expansion through AI. Ultimately, our study supports the use of LLMs as credible and informative collaborators in linguistic inquiry.