Voice Under Revision: Large Language Models and the Normalization of Personal Narrative
作者: Tom van Nuenen
分类: cs.CL, cs.CY
发布日期: 2026-04-24
💡 一句话要点
大型语言模型重写个人叙事文本导致风格标准化,影响文本分析。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 文本重写 风格标准化 计算文体学 个人叙事
📋 核心要点
- 现有方法难以量化LLM对个人叙事风格的潜在影响,尤其是在文本特征层面的改变。
- 本研究通过分析LLM重写后的文本,揭示了LLM在不同提示下对文本风格的标准化影响。
- 实验结果表明,LLM重写导致文本在功能词、词汇多样性等多个语言特征上发生显著变化。
📝 摘要(中文)
本研究考察了大型语言模型(LLM)重写如何改变个人叙事的风格和叙事结构。它分析了300篇个人叙事文本,这些文本由三个前沿LLM在三种提示条件下重写:通用改进、仅重写和保留声音的修订。通过计算文体学中的13个语言标记来衡量变化,包括功能词、词汇多样性、词长、标点符号、缩略词、第一人称代词和情感词。结果表明,在不同的模型和提示条件下,LLM重写产生了一种一致的风格标准化模式。功能词、缩略词和第一人称代词减少,而词汇多样性、词长和标点符号的精细程度增加。无论提示要求模型“改进”文本还是仅仅“重写”文本,都会发生这些变化。保留声音的提示减少了变化的幅度,但并没有消除变化的方向。文体分析表明,重写后的文本在特征空间中趋于收敛,并且更难与它们的源文本匹配。额外的叙事标记表明,叙事从嵌入式转向疏远式,从显式的因果推理转向压缩的抽象。研究结果表明,当代LLM对更精致、更少情境化的语域产生了一种方向性的拉动。这对数字人文和计算文本分析产生了影响,因为功能词、代词、缩略词和标点符号等特征通常作为风格、声音、作者身份和语料库完整性的证据。因此,LLM修订不应仅仅被理解为表面层面的编辑,而应被理解为一种重要的文本中介形式。
🔬 方法详解
问题定义:现有方法缺乏对大型语言模型(LLM)在文本重写过程中对个人叙事风格产生影响的深入理解。特别是,现有方法难以量化LLM对文本风格的标准化效应,以及这种效应如何影响数字人文和计算文本分析中常用的文本特征。现有方法的痛点在于无法有效区分LLM重写带来的表面编辑和深层文本中介。
核心思路:本研究的核心思路是通过计算文体学的方法,量化分析LLM重写前后个人叙事文本在多个语言特征上的变化。通过比较不同LLM和不同提示条件下的重写结果,揭示LLM对文本风格的标准化效应,并探讨这种效应对文本分析的潜在影响。研究假设LLM重写会使文本在风格上趋于一致,从而影响文本的独特性和可追溯性。
技术框架:研究的技术框架主要包括以下几个阶段:1) 数据收集:收集300篇个人叙事文本作为原始数据。2) LLM重写:使用三个前沿LLM(具体模型名称未知)在三种提示条件下(通用改进、仅重写、保留声音的修订)对原始文本进行重写。3) 特征提取:从原始文本和重写文本中提取13个语言标记,包括功能词、词汇多样性、词长、标点符号、缩略词、第一人称代词和情感词。4) 统计分析:使用统计方法分析这些语言标记在重写前后的变化,并比较不同LLM和提示条件下的结果。5) 文体分析:使用文体分析方法,评估重写文本在特征空间中的收敛程度,以及与源文本的匹配难度。
关键创新:本研究的关键创新在于:1) 系统性地量化了LLM重写对个人叙事风格的影响,揭示了LLM对文本风格的标准化效应。2) 提出了一个基于计算文体学的分析框架,可以用于评估LLM重写对文本特征的影响。3) 探讨了LLM重写对数字人文和计算文本分析的潜在影响,强调了LLM重写作为一种文本中介形式的重要性。
关键设计:研究的关键设计包括:1) 选择具有代表性的LLM和提示条件,以模拟不同的重写场景。2) 选择具有区分度的语言标记,以捕捉文本风格的细微变化。3) 使用多种统计和文体分析方法,以确保结果的可靠性和有效性。具体的参数设置、损失函数、网络结构等技术细节在论文中未明确说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM重写导致文本在多个语言特征上发生显著变化,例如功能词、缩略词和第一人称代词减少,而词汇多样性、词长和标点符号的精细程度增加。文体分析显示,重写后的文本在特征空间中趋于收敛,并且更难与它们的源文本匹配。即使在“保留声音”的提示下,LLM重写仍然会导致文本风格的标准化。
🎯 应用场景
该研究成果可应用于数字人文、计算文本分析、内容创作和文本编辑等领域。理解LLM对文本风格的影响有助于研究者更准确地分析文本数据,并为内容创作者提供更有效的文本编辑工具。此外,该研究还可以帮助人们更好地理解LLM在文本生成和处理中的作用,从而更好地利用LLM技术。
📄 摘要(原文)
This study examines how large language model rewriting alters the style and narrative texture of personal narratives. It analyzes 300 personal narratives rewritten by three frontier LLMs under three prompt conditions: generic improvement, rewrite-only, and voice-preserving revision. Change is measured across 13 linguistic markers drawn from computational stylistics, including function words, vocabulary diversity, word length, punctuation, contractions, first-person pronouns, and emotion words. Across models and prompt conditions, LLM rewriting produces a consistent pattern of stylistic normalization. Function words, contractions, and first-person pronouns decrease, while vocabulary diversity, word length, and punctuation elaboration increase. These shifts occur whether the prompt asks the model to "improve" the text or simply to "rewrite" it. Voice-preserving prompts reduce the magnitude of the changes but do not eliminate their direction. Stylometric analysis shows that rewritten texts converge in feature space and become harder to match back to their source texts. Additional narrative markers indicate a shift from embedded to distanced narration, and from explicit causal reasoning to compressed abstraction. The findings suggest that contemporary LLMs exert a directional pull toward a more polished, less situated register. This has consequences for digital humanities and computational text analysis, where features such as function words, pronouns, contractions, and punctuation often serve as evidence for style, voice, authorship, and corpus integrity. LLM revision should therefore be understood not merely as surface-level editing, but as a consequential form of textual mediation.