AI Brown and AI Koditex: LLM-Generated Corpora Comparable to Traditional Corpora of English and Czech Texts
作者: Jiří Milička, Anna Marklová, Václav Cvrček
分类: cs.CL, cs.AI
发布日期: 2025-09-26
💡 一句话要点
提出AI Brown和AI Koditex:可与传统语料库媲美的LLM生成英文和捷克文语料库
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 文本生成 语料库构建 自然语言处理 语言学研究
📋 核心要点
- 现有语言研究缺乏大规模的、可与人工语料库直接比较的LLM生成文本资源,限制了对LLM生成文本特性的深入分析。
- 论文核心在于利用多种先进LLM生成与现有经典语料库(Brown和Koditex)结构和规模对齐的英文和捷克文语料库,实现可控的对比研究。
- 生成的AI Brown和AI Koditex语料库已完成通用依存关系标注,并开放下载,为语言学研究提供高质量的数据资源。
📝 摘要(中文)
本文介绍了两个使用大型语言模型(LLM)生成的英文和捷克文语料库。其动机是创建一个资源,用于从语言学角度比较人工撰写的文本与LLM生成的文本。重点在于确保这些资源是多领域、主题丰富、作者多样和文本类型广泛的,同时保持与现有人工创建语料库的可比性。这些生成的语料库复制了参考人工语料库:Paul Baker的BE21(原始Brown语料库的现代版本)和Koditex语料库(同样遵循Brown语料库传统,但使用捷克语)。新语料库使用OpenAI、Anthropic、Alphabet、Meta和DeepSeek的模型生成,范围从GPT-3 (davinci-002)到GPT-4.5,并根据通用依存关系标准进行标记(即,它们被分词、词形还原,并进行形态和句法注释)。子语料库的大小因使用的模型而异(英文部分平均每个模型包含864k个token,总共27M个token,捷克文部分平均每个模型包含768k个token,总共21.5M个token)。这些语料库在CC BY 4.0许可下可免费下载(注释数据在CC BY-NC-SA 4.0许可下),并且可以通过捷克国家语料库的搜索界面访问。
🔬 方法详解
问题定义:论文旨在解决缺乏大规模、高质量的LLM生成文本语料库的问题,这些语料库需要与现有人工创建的语料库具有可比性。现有的语料库主要由人工撰写,难以直接用于对比分析LLM生成文本的语言特征。
核心思路:论文的核心思路是利用先进的LLM,通过控制生成过程,创建与现有经典语料库(Brown和Koditex)在规模、领域、文本类型等方面对齐的语料库。这样可以实现对人工文本和LLM生成文本的直接对比研究。
技术框架:整体流程包括:1) 选择参考的人工语料库(BE21和Koditex);2) 选择多种LLM(GPT-3到GPT-4.5);3) 使用LLM生成文本,并确保文本在主题、风格等方面与参考语料库匹配;4) 对生成的文本进行通用依存关系标注(分词、词形还原、形态和句法分析);5) 发布语料库供研究使用。
关键创新:最重要的创新点在于构建了可与传统人工语料库直接比较的LLM生成语料库。这使得研究人员能够系统地分析LLM生成文本的语言特征,并将其与人工文本进行对比。此外,使用了多种LLM,增加了语料库的多样性。
关键设计:关键设计包括:1) 选择具有代表性的参考语料库;2) 使用多种LLM,以减少模型偏差;3) 确保生成的文本在主题和风格上与参考语料库匹配;4) 使用通用依存关系标准进行标注,方便与其他语料库进行比较;5) 子语料库大小根据模型进行调整,英文部分平均每个模型包含864k个token,捷克文部分平均每个模型包含768k个token。
🖼️ 关键图片
📊 实验亮点
论文构建了大规模的英文和捷克文LLM生成语料库,总计英文27M tokens,捷克文21.5M tokens。这些语料库与经典人工语料库(Brown和Koditex)在结构和规模上对齐,并进行了通用依存关系标注,为LLM生成文本的语言学研究提供了高质量的数据资源。
🎯 应用场景
该研究成果可广泛应用于自然语言处理、计算语言学和人工智能领域。例如,可以用于评估LLM的文本生成质量、研究LLM的语言风格、开发更自然的LLM文本生成方法,以及深入理解LLM与人类语言之间的差异。此外,该语料库也可用于训练和评估各种NLP模型。
📄 摘要(原文)
This article presents two corpora of English and Czech texts generated with large language models (LLMs). The motivation is to create a resource for comparing human-written texts with LLM-generated text linguistically. Emphasis was placed on ensuring these resources are multi-genre and rich in terms of topics, authors, and text types, while maintaining comparability with existing human-created corpora. These generated corpora replicate reference human corpora: BE21 by Paul Baker, which is a modern version of the original Brown Corpus, and Koditex corpus that also follows the Brown Corpus tradition but in Czech. The new corpora were generated using models from OpenAI, Anthropic, Alphabet, Meta, and DeepSeek, ranging from GPT-3 (davinci-002) to GPT-4.5, and are tagged according to the Universal Dependencies standard (i.e., they are tokenized, lemmatized, and morphologically and syntactically annotated). The subcorpus size varies according to the model used (the English part contains on average 864k tokens per model, 27M tokens altogether, the Czech partcontains on average 768k tokens per model, 21.5M tokens altogether). The corpora are freely available for download under the CC BY 4.0 license (the annotated data are under CC BY-NC-SA 4.0 licence) and are also accessible through the search interface of the Czech National Corpus.