Agent-Driven Corpus Linguistics: A Framework for Autonomous Linguistic Discovery

📄 arXiv: 2604.07189v1 📥 PDF

作者: Jia Yu, Weiwei Yu, Pengfei Xiao, Fukun Xing

分类: cs.CL

发布日期: 2026-04-08


💡 一句话要点

提出Agent-Driven Corpus Linguistics框架,实现基于LLM的自主语言发现。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语料库语言学 大型语言模型 自主学习 语言发现 语义变化

📋 核心要点

  1. 传统语料库语言学依赖人工,耗时且需专业技能,限制了研究效率和参与度。
  2. Agent-Driven Corpus Linguistics利用LLM自主完成假设生成、语料查询、结果分析等环节。
  3. 实验表明,该框架能有效发现语言规律,复现已有研究,并降低研究的技术门槛。

📝 摘要(中文)

语料库语言学传统上依赖于研究人员提出假设、构建查询和解释结果,这一过程需要专门的技术技能和大量时间。我们提出Agent-Driven Corpus Linguistics,该方法通过结构化的工具使用界面将大型语言模型(LLM)连接到语料库查询引擎,从而接管调查周期:生成假设、查询语料库、解释结果以及跨多轮次改进分析。研究人员负责设定方向和评估最终输出。与不受约束的LLM生成不同,每个发现都基于可验证的语料库证据。我们不将其视为对基于语料库/语料库驱动区分的替代,而是将其视为一个补充维度:它关注谁进行调查,而不是理论和数据之间的认识论关系。我们通过Model Context Protocol (MCP)将LLM代理连接到CQP索引的Gutenberg语料库(500万tokens)来演示该框架。仅给定“调查英语增强词”,该代理就识别出一个历时中继链(so+ADJ > very > really)、三个语义变化路径(去词汇化、极性固定、隐喻约束)以及对语域敏感的分布。受控的基线实验表明,语料库基础贡献了量化和可证伪性,这是模型无法仅从训练数据中产生的。为了测试外部有效性,该代理复制了关于CLMET语料库(4000万tokens)的两项已发表研究——Claridge (2025)和De Smet (2013)——具有接近的定量一致性。因此,Agent-driven语料库研究可以以机器速度产生基于经验的发现,从而降低了更广泛研究人员的技术门槛。

🔬 方法详解

问题定义:传统语料库语言学研究高度依赖人工,研究者需要具备专业的语言学知识和语料库查询技能,才能提出有意义的假设、构建有效的查询语句并解释结果。这一过程耗时费力,且提高了研究的门槛,限制了更广泛的研究者参与。

核心思路:利用大型语言模型(LLM)的强大语言理解和生成能力,构建一个自主的Agent,使其能够自动完成语料库语言学研究的各个环节,包括假设生成、语料查询、结果解释和分析改进。核心在于将LLM与语料库查询引擎连接,使LLM的发现基于可验证的语料库证据。

技术框架:该框架包含以下几个主要模块:1) LLM Agent:负责生成研究假设、构建查询语句、解释查询结果并进行分析改进。2) 语料库查询引擎:负责执行LLM Agent提出的查询,并返回查询结果。3) Model Context Protocol (MCP):作为LLM Agent和语料库查询引擎之间的接口,负责将LLM Agent的指令转换为语料库查询引擎可以理解的查询语句,并将查询结果返回给LLM Agent。4) 语料库:存储需要分析的文本数据。

关键创新:该方法的核心创新在于将LLM引入语料库语言学研究,使其能够自主地进行研究,从而降低了研究的技术门槛,提高了研究效率。与传统的基于人工的语料库语言学研究相比,该方法能够以机器速度产生基于经验的发现。此外,该框架强调LLM的发现必须基于可验证的语料库证据,避免了LLM的幻觉问题。

关键设计:实验中,LLM Agent使用GPT-3.5,语料库查询引擎使用CQP,MCP用于连接LLM和CQP。研究人员仅需提供一个宽泛的研究方向,例如“调查英语增强词”,Agent即可自主完成后续研究。通过基线实验,验证了语料库 grounding 对于量化和可证伪性的贡献。通过复现已有研究,验证了该框架的外部有效性。

📊 实验亮点

实验结果表明,Agent-Driven Corpus Linguistics框架能够有效发现语言规律,例如识别出英语增强词的历时演变链(so+ADJ > very > really)和语义变化路径。通过复现Claridge (2025)和De Smet (2013)的研究,验证了该框架的外部有效性,并取得了接近的定量一致性。基线实验证明,语料库 grounding 显著提升了结果的量化和可证伪性。

🎯 应用场景

该研究成果可应用于语言学研究、自然语言处理、教育等领域。例如,可以帮助语言学家更高效地发现语言规律,为自然语言处理任务提供更准确的语言知识,辅助语言学习者更好地理解和掌握语言。未来,该框架可以扩展到其他类型的语料库和语言,并与其他自然语言处理技术相结合,实现更强大的语言分析能力。

📄 摘要(原文)

Corpus linguistics has traditionally relied on human researchers to formulate hypotheses, construct queries, and interpret results - a process demanding specialized technical skills and considerable time. We propose Agent-Driven Corpus Linguistics, an approach in which a large language model (LLM), connected to a corpus query engine via a structured tool-use interface, takes over the investigative cycle: generating hypotheses, querying the corpus, interpreting results, and refining analysis across multiple rounds. The human researcher sets direction and evaluates final output. Unlike unconstrained LLM generation, every finding is anchored in verifiable corpus evidence. We treat this not as a replacement for the corpus-based/corpus-driven distinction but as a complementary dimension: it concerns who conducts the inquiry, not the epistemological relationship between theory and data. We demonstrate the framework by linking an LLM agent to a CQP-indexed Gutenberg corpus (5 million tokens) via the Model Context Protocol (MCP). Given only "investigate English intensifiers," the agent identified a diachronic relay chain (so+ADJ > very > really), three pathways of semantic change (delexicalization, polarity fixation, metaphorical constraint), and register-sensitive distributions. A controlled baseline experiment shows that corpus grounding contributes quantification and falsifiability that the model cannot produce from training data alone. To test external validity, the agent replicated two published studies on the CLMET corpus (40 million tokens) - Claridge (2025) and De Smet (2013) - with close quantitative agreement. Agent-driven corpus research can thus produce empirically grounded findings at machine speed, lowering the technical barrier for a broader range of researchers.