Scaling In, Not Up? Testing Thick Citation Context Analysis with GPT-5 and Fragile Prompts
作者: Arno Simons
分类: cs.CL, cs.AI
发布日期: 2026-02-28
💡 一句话要点
通过深入文本分析而非类型标签扩展,评估GPT-5在引文情境分析中的能力及脆弱提示的影响。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 引文情境分析 大型语言模型 GPT-5 提示工程 文本理解
📋 核心要点
- 现有引文情境分析方法依赖类型标签扩展,缺乏对复杂案例的深入文本理解。
- 论文提出利用GPT-5进行深入文本阅读,通过改变提示支架和框架来分析提示敏感性。
- 实验表明GPT-5能生成多种假设,但提示选择会显著影响其关注点和词汇选择。
📝 摘要(中文)
本文测试了大型语言模型(LLMs)是否可以通过深入的、基于文本的阅读单个复杂案例来支持解释性引文情境分析(CCA),而不是通过扩展类型标签来实现。它通过在平衡的2x3设计中改变提示支架和框架,突出了提示敏感性分析作为一个方法论问题。使用Chubin和Moitra(1975)的脚注6和Gilbert(1977)的重构作为探针,我实现了一个两阶段的GPT-5流程:一个仅基于引文文本的表面分类和期望传递,然后是使用引用和被引用全文的跨文档解释性重构。在90次重构中,该模型产生了450个不同的假设。仔细阅读和归纳编码确定了21个重复出现的解释性动作,线性概率模型估计了提示选择如何改变它们的频率和词汇。GPT-5的表面传递非常稳定,始终将引文分类为“补充”。在重构中,该模型生成了一个合理的替代方案的结构化空间,但支架和示例重新分配了注意力和词汇,有时会倾向于紧张的阅读。相对于Gilbert,GPT-5检测到相同的文本枢纽,但更经常将它们解释为谱系和定位,而不是告诫。该研究概述了使用LLM作为可检查、可争议的解释性CCA的指导性共同分析师的机会和风险,并表明提示支架和框架系统地倾斜了模型突出显示的合理阅读和词汇。
🔬 方法详解
问题定义:论文旨在解决如何利用大型语言模型(LLMs)进行更深入、更细致的引文情境分析(CCA)的问题。现有方法通常依赖于类型标签的扩展,缺乏对复杂引文案例的深入理解和解释能力。现有方法的痛点在于无法充分挖掘引文背后的复杂含义和上下文信息。
核心思路:论文的核心思路是“Scaling In, Not Up”,即通过深入分析单个复杂案例,而不是简单地扩展类型标签,来提升LLM在CCA中的能力。通过构建一个两阶段的GPT-5流程,并结合提示工程,探索LLM在理解和解释引文情境方面的潜力。这种设计旨在模拟人工研究者对引文的细致解读过程。
技术框架:整体流程分为两个阶段:第一阶段是“引文文本表面分类和期望传递”,仅使用引文文本对引文进行初步分类,判断其类型(如“补充”)。第二阶段是“跨文档解释性重构”,利用引用和被引用的全文,对引文进行更深入的解释和重构。通过比较不同提示下的重构结果,分析提示对模型输出的影响。
关键创新:论文的关键创新在于将提示敏感性分析作为方法论的核心,并系统地研究了不同提示策略对LLM在CCA中表现的影响。通过改变提示的支架和框架,观察模型生成的假设和词汇的变化,从而揭示LLM在理解和解释引文情境时的偏差和局限性。
关键设计:实验采用2x3的设计,即两个不同的提示支架和三个不同的提示框架,共六种提示组合。使用Chubin和Moitra(1975)的脚注6和Gilbert(1977)的重构作为探针。通过线性概率模型估计提示选择如何改变解释性动作的频率和词汇。模型生成450个不同的假设,通过归纳编码识别出21个重复出现的解释性动作。
📊 实验亮点
实验结果表明,GPT-5在表面分类阶段表现稳定,始终将引文分类为“补充”。在重构阶段,GPT-5能够生成多种合理的替代方案,但提示支架和示例会显著影响其关注点和词汇选择。相对于Gilbert,GPT-5更倾向于将文本枢纽解释为谱系和定位,而非告诫。
🎯 应用场景
该研究成果可应用于学术研究、文献综述、知识图谱构建等领域。通过利用LLM进行引文情境分析,可以更高效地理解学术文献之间的关系,挖掘隐藏的知识和观点,并辅助研究人员进行更深入的学术探索。未来的影响在于提升学术研究的效率和质量。
📄 摘要(原文)
This paper tests whether large language models (LLMs) can support interpretative citation context analysis (CCA) by scaling in thick, text-grounded readings of a single hard case rather than scaling up typological labels. It foregrounds prompt-sensitivity analysis as a methodological issue by varying prompt scaffolding and framing in a balanced 2x3 design. Using footnote 6 in Chubin and Moitra (1975) and Gilbert's (1977) reconstruction as a probe, I implement a two-stage GPT-5 pipeline: a citation-text-only surface classification and expectation pass, followed by cross-document interpretative reconstruction using the citing and cited full texts. Across 90 reconstructions, the model produces 450 distinct hypotheses. Close reading and inductive coding identify 21 recurring interpretative moves, and linear probability models estimate how prompt choices shift their frequencies and lexical repertoire. GPT-5's surface pass is highly stable, consistently classifying the citation as "supplementary". In reconstruction, the model generates a structured space of plausible alternatives, but scaffolding and examples redistribute attention and vocabulary, sometimes toward strained readings. Relative to Gilbert, GPT-5 detects the same textual hinges yet more often resolves them as lineage and positioning than as admonishment. The study outlines opportunities and risks of using LLMs as guided co-analysts for inspectable, contestable interpretative CCA, and it shows that prompt scaffolding and framing systematically tilt which plausible readings and vocabularies the model foregrounds.