EarlySciRev: A Dataset of Early-Stage Scientific Revisions Extracted from LaTeX Writing Traces

📄 arXiv: 2603.28515v1 📥 PDF

作者: Léane Jourdan, Julien Aubert-Béduchaud, Yannis Chupin, Marah Baccari, Florian Boudin

分类: cs.CL

发布日期: 2026-03-30

备注: Accepted to NSLP@LREC


💡 一句话要点

提出EarlySciRev数据集,用于研究科学写作早期修订行为和评估LLM在科学写作中的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 科学写作 修订数据集 LaTeX源码 自然语言处理 大型语言模型

📋 核心要点

  1. 现有科学写作数据集主要集中于论文的最终版本,缺乏早期修订过程的数据,限制了对写作过程的深入研究。
  2. 该论文提出EarlySciRev数据集,通过挖掘LaTeX源码中的注释文本,提取作者早期的修改痕迹,构建修订对。
  3. 该数据集包含57.8万个验证过的修订对,并提供人工标注的修订检测基准,为相关研究提供数据支持。

📝 摘要(中文)

科学写作是一个迭代过程,会产生丰富的修订痕迹,但公开可用的资源通常只展示论文的最终或接近最终的版本。这限制了对修订行为的实证研究以及对大型语言模型(LLM)在科学写作方面的评估。我们介绍了EarlySciRev,这是一个从arXiv LaTeX源文件中自动提取的早期科学文本修订数据集。我们的关键观察是,LaTeX中注释掉的文本通常保留了作者自己编写的被丢弃或替代的表述。通过将注释片段与附近的最终文本对齐,我们提取段落级别的候选修订对,并应用基于LLM的过滤来保留真正的修订。从128万个候选对开始,我们的流程产生了57.8万个经过验证的修订对,这些修订对基于真实的早期草稿痕迹。我们还提供了一个人工标注的修订检测基准。EarlySciRev补充了现有的侧重于后期修订或合成重写资源,并支持对科学写作动态、修订建模和LLM辅助编辑的研究。

🔬 方法详解

问题定义:现有科学写作数据集主要关注最终版本或接近最终版本的论文,缺乏对早期修订过程的记录。这使得研究人员难以分析科学写作的迭代过程、作者的修改行为以及评估大型语言模型在辅助科学写作方面的能力。因此,需要一个包含早期修订痕迹的数据集,以促进相关研究。

核心思路:该论文的核心思路是从arXiv的LaTeX源码中挖掘作者在早期写作过程中注释掉的文本。作者认为,这些注释文本往往包含了被丢弃或替代的表述,可以作为早期修订的证据。通过将这些注释文本与最终版本中的对应文本进行比对,可以构建修订对,从而还原科学写作的早期迭代过程。

技术框架:该方法主要包含以下几个阶段:1) 从arXiv下载LaTeX源码;2) 提取源码中的注释文本;3) 将注释文本与附近的最终文本进行对齐,生成候选修订对;4) 使用基于LLM的过滤器对候选修订对进行筛选,保留真正的修订;5) 对筛选后的修订对进行人工标注,构建修订检测基准。

关键创新:该论文的关键创新在于利用LaTeX源码中的注释文本作为早期修订的证据。这种方法能够自动地从大规模的科学论文中提取修订数据,避免了人工标注的成本和主观性。此外,使用LLM进行过滤可以有效地去除噪声,提高数据集的质量。

关键设计:在对齐注释文本和最终文本时,论文采用了段落级别的对齐策略。在LLM过滤阶段,使用了预训练的语言模型来判断候选修订对是否为真正的修订。具体使用的LLM模型和训练细节未知。

🖼️ 关键图片

fig_0

📊 实验亮点

该论文构建的EarlySciRev数据集包含57.8万个经过验证的修订对,规模较大,质量较高。此外,论文还提供了一个人工标注的修订检测基准,可以用于评估修订检测算法的性能。实验结果未知,但数据集本身的贡献值得关注。

🎯 应用场景

EarlySciRev数据集可用于研究科学写作的动态过程,例如作者的修改策略、常见的写作错误等。此外,该数据集还可以用于训练和评估大型语言模型在辅助科学写作方面的能力,例如自动润色、语法纠错、风格建议等。该数据集的发布将促进科学写作领域的研究和应用。

📄 摘要(原文)

Scientific writing is an iterative process that generates rich revision traces, yet publicly available resources typically expose only final or near-final versions of papers. This limits empirical study of revision behaviour and evaluation of large language models (LLMs) for scientific writing. We introduce EarlySciRev, a dataset of early-stage scientific text revisions automatically extracted from arXiv LaTeX source files. Our key observation is that commented-out text in LaTeX often preserves discarded or alternative formulations written by the authors themselves. By aligning commented segments with nearby final text, we extract paragraph-level candidate revision pairs and apply LLM-based filtering to retain genuine revisions. Starting from 1.28M candidate pairs, our pipeline yields 578k validated revision pairs, grounded in authentic early drafting traces. We additionally provide a human-annotated benchmark for revision detection. EarlySciRev complements existing resources focused on late-stage revisions or synthetic rewrites and supports research on scientific writing dynamics, revision modelling, and LLM-assisted editing.