Evaluating The Impact of Stimulus Quality in Investigations of LLM Language Performance

📄 arXiv: 2510.06018v1 📥 PDF

作者: Timothy Pistotti, Jason Brown, Michael Witbrock

分类: cs.CL

发布日期: 2025-10-07

备注: Presented at https://brigap-workshop.github.io/ Information to be updated upon publication of proceedings


💡 一句话要点

通过优化刺激质量,提升LLM在句法预测任务中的性能评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 句法预测 刺激质量 语言学评估 生成式模型

📋 核心要点

  1. 现有研究使用LLM测试APS时,刺激的词汇歧义和结构复杂性可能干扰模型性能评估。
  2. 本研究通过使用SOTA生成式LLM生成更清晰的语言学模板,优化刺激质量,从而更准确评估LLM的句法能力。
  3. 实验表明,在优化后的刺激上,GPT-2的句法预测性能显著提升,验证了刺激质量对评估结果的关键影响。

📝 摘要(中文)

本研究探讨了用于测试大语言模型(LLM)在“刺激贫乏论证”(APS)中的表现时,刺激本身的质量对结果的影响。前期研究在句法现象上产生了矛盾的结果。本文假设,刺激中的词汇歧义和结构复杂性可能会混淆模型性能。因此,本文提出了一种重新评估LLM(以GPT-2为例)在句法预测方面能力的方法。该方法包括:1)建立在先前使用的(过滤和未过滤)刺激上的基线;2)使用最先进的生成式LLM(Gemini 2.5 Pro Preview),并根据语言学信息模板生成新的、精炼的数据集,以减轻已识别的混淆因素。初步结果表明,与基线相比,GPT-2在这些精炼的PG刺激上表现出显著提高,表明刺激质量显著影响了基于惊讶度的LLM句法能力评估结果。

🔬 方法详解

问题定义:现有研究在评估LLM的句法能力时,使用的刺激数据集中存在词汇歧义和结构复杂性等问题,这些问题会干扰模型性能的准确评估,导致评估结果出现偏差。因此,需要一种更可靠的方法来评估LLM的句法能力,避免受到刺激质量的影响。

核心思路:本研究的核心思路是通过控制刺激的质量,减少词汇歧义和结构复杂性,从而更准确地评估LLM的句法能力。具体来说,使用一个强大的生成式LLM(Gemini 2.5 Pro Preview)生成新的、精炼的数据集,这些数据集基于语言学信息模板,旨在减轻已识别的混淆因素。

技术框架:该方法主要包含两个阶段:1)建立基线:使用先前研究中使用的(过滤和未过滤)刺激数据集,评估GPT-2的性能,作为基线参考。2)生成精炼数据集:使用Gemini 2.5 Pro Preview,根据语言学信息模板生成新的数据集,该模板旨在减少词汇歧义和结构复杂性。然后,使用这些精炼的数据集重新评估GPT-2的性能。

关键创新:本研究的关键创新在于使用SOTA生成式LLM(Gemini 2.5 Pro Preview)来生成高质量的刺激数据集。与传统的手工构建或简单过滤方法相比,这种方法能够更有效地控制刺激的质量,减少词汇歧义和结构复杂性,从而更准确地评估LLM的句法能力。

关键设计:在生成精炼数据集时,使用了语言学信息模板来指导生成过程。这些模板基于对句法结构的深入理解,旨在生成清晰、简洁的句子,避免使用复杂的语法结构和歧义的词汇。此外,研究人员还仔细选择了用于生成数据集的提示语,以确保生成的数据集能够覆盖各种句法现象。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,GPT-2在精炼的PG刺激上的表现显著优于在原始刺激上的表现,这表明刺激质量对LLM的句法能力评估结果有显著影响。具体来说,GPT-2在精炼数据集上的惊讶度(surprisal)指标明显降低,表明模型对句子的预测能力得到了提升。

🎯 应用场景

该研究成果可应用于更准确地评估和提升LLM的语言理解能力,尤其是在句法分析、机器翻译和自然语言生成等领域。通过优化训练数据和评估方法,可以开发出更强大、更可靠的LLM,从而推动人工智能技术的发展。

📄 摘要(原文)

Recent studies employing Large Language Models (LLMs) to test the Argument from the Poverty of the Stimulus (APS) have yielded contrasting results across syntactic phenomena. This paper investigates the hypothesis that characteristics of the stimuli used in recent studies, including lexical ambiguities and structural complexities, may confound model performance. A methodology is proposed for re-evaluating LLM competence on syntactic prediction, focusing on GPT-2. This involves: 1) establishing a baseline on previously used (both filtered and unfiltered) stimuli, and 2) generating a new, refined dataset using a state-of-the-art (SOTA) generative LLM (Gemini 2.5 Pro Preview) guided by linguistically-informed templates designed to mitigate identified confounds. Our preliminary findings indicate that GPT-2 demonstrates notably improved performance on these refined PG stimuli compared to baselines, suggesting that stimulus quality significantly influences outcomes in surprisal-based evaluations of LLM syntactic competency.