The Impact of Editorial Intervention on Detecting Native Language Traces
作者: Ahmet Yavuz Uluslu, Mark Gales, Kate Knill, Gerold Schneider
分类: cs.CL
发布日期: 2026-05-11
💡 一句话要点
量化编辑干预对母语识别的影响:揭示非母语文本中深层语言特征的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 母语识别 人机协作写作 语法纠错 计算语言学 文本归因 语用迁移
📋 核心要点
- 核心问题:大语言模型介入写作后,传统NLI模型依赖的表层语法错误特征被消除,导致现有识别方法在面对AI辅助文本时面临失效挑战。
- 方法要点:通过控制变量法,对文本进行不同层级的语法纠错与改写,系统性评估编辑干预对L1特征提取的影响,并分析深层语言特征的鲁棒性。
- 实验或效果:实验证实了L1识别不仅依赖表层错误,还依赖深层语义与语用特征;流利度编辑会显著削弱模型性能,而微小编辑对识别准确率影响较小。
📝 摘要(中文)
母语识别(NLI)旨在通过非母语写作推断作者的母语(L1)。随着人机协作写作的普及,大语言模型对文本的纠错与重写从根本上改变了NLI模型所依赖的语言特征。本文研究了不同程度的编辑干预对L1特征鲁棒性的影响。通过对Write & Improve 2024语料库中的450篇论文进行不同程度的语法纠错(GEC)和改写,研究表明L1归因并不完全依赖于表层错误。相反,检测模型利用了更深层的L1特征,如非地道的词汇语义选择、语用迁移及作者的文化视角。研究发现,最小化编辑能保留这些结构性特征并维持高识别精度,而流利度优化和改写则会归一化这些特征,导致模型性能严重下降。
🔬 方法详解
问题定义:论文旨在解决AI辅助写作环境下,文本经过纠错与改写后,传统母语识别(NLI)模型特征失效的问题。现有方法多依赖于非母语者的语法偏误,而AI编辑抹除了这些表层痕迹。
核心思路:通过量化编辑干预的程度(从微小纠错到深度改写),探究L1特征在不同文本处理阶段的存续情况。研究假设除了表层错误,深层的词汇选择、语用习惯和文化视角构成了L1识别的鲁棒特征。
技术框架:研究采用Write & Improve 2024语料库,利用大语言模型对文本进行分级处理:第一阶段为最小化语法纠错(GEC),第二阶段为流利度优化,第三阶段为深度改写。随后使用NLI分类器在不同处理后的文本上进行性能评估。
关键创新:揭示了NLI模型在面对AI编辑时,识别逻辑从“错误模式匹配”向“深层语用与语义分析”的范式转移,证明了非地道表达和文化迁移特征具有较强的抗干扰能力。
关键设计:实验设计了多层级的编辑流水线,通过对比原始文本与处理后文本的分类准确率变化,量化了不同编辑操作对L1特征的“归一化”效应,从而界定了模型性能衰减的临界点。
🖼️ 关键图片
📊 实验亮点
实验结果显示,当仅进行微小语法纠错时,模型仍能保持较高的识别准确率,证明了深层L1特征的鲁棒性。然而,当编辑涉及流利度优化或深度改写时,模型性能出现显著退化,表明这些操作有效地抹除了作者的母语痕迹,使得基于传统特征的识别方法难以奏效。
🎯 应用场景
该研究在学术诚信检测、作者身份验证及法医语言学领域具有重要价值。它不仅能帮助评估AI辅助写作工具对个人语言风格的影响,还为开发更具鲁棒性的作者归因系统提供了理论支撑,有助于在AI生成内容泛滥的时代识别文本的真实来源与文化背景。
📄 摘要(原文)
Native Language Identification (NLI) is the task of determining an author's native language (L1) from their non-native writings. With the advent of human-AI co-authorship, non-native texts are routinely corrected and rewritten by large language models, fundamentally altering the linguistic features NLI models depend on. In this paper, we investigate the robustness of L1 traces across increasing degrees of editorial intervention. By processing 450 essays from the Write & Improve 2024 corpus through varying levels of grammatical error correction (GEC) and paraphrasing, we demonstrate that L1 attribution does not entirely depend on surface-level errors. Instead, the detection models leverage deeper L1 features: unidiomatic lexico-semantic choices, pragmatic transfer, and the author's underlying cultural perspective. We find that minimal edits preserve these structural traces and maintain high profiling accuracy. In contrast, fluency edits and paraphrasing normalize these L1 features, leading to a severe degradation in performance.