Measuring Embedding Sensitivity to Authorial Style in French: Comparing Literary Texts with Language Model Rewritings

📄 arXiv: 2605.10606v1 📥 PDF

作者: Benjamin Icard, Lila Sainero, Alice Breton, Evangelia Zve, Jean-Gabriel Ganascia

分类: cs.CL, cs.AI

发布日期: 2026-05-11

备注: To appear in the Proceedings of the 6th International Conference on Natural Language Processing for the Digital Humanities (NLP4DH 2026)


💡 一句话要点

量化法文文学文本的嵌入风格敏感度:评估大语言模型重写对作者风格特征的保留能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 作者身份识别 文本风格分析 嵌入空间 计算文学 数字取证 法语自然语言处理

📋 核心要点

  1. 核心问题:现有研究缺乏对大语言模型嵌入空间中作者风格编码能力的量化评估,且不清楚重写过程如何改变这些风格特征。
  2. 方法要点:利用受控法语文学数据集,通过对比原始文本与LLM重写文本的嵌入离散度,分析风格信息的保留与演变规律。
  3. 实验效果:证实了嵌入向量对作者风格具有高敏感度,且风格信号在重写后仍具鲁棒性,同时揭示了不同模型架构的特异性模式。

📝 摘要(中文)

大语言模型(LLMs)已展现出令人信服的模仿人类写作风格的能力,然而,目前尚不清楚语言模型生成的嵌入向量中究竟编码了多少风格信息,以及这些信息在经过LLM重写后保留了多少。本研究针对法语文学文本,构建了一个受控数据集,通过测量嵌入向量离散度的变化来量化风格变异的影响。研究发现,嵌入向量能够可靠地捕捉作者的风格特征,且这些信号在经过LLM重写后依然存在,同时表现出特定于模型架构的模式。这些分析结果为大模型时代的作者身份模仿检测提供了具有前景的研究方向。

🔬 方法详解

问题定义:论文旨在解决大语言模型在文本重写过程中,作者原始风格特征是否会被抹除或保留的问题。现有方法多关注语义一致性,缺乏对嵌入空间中风格表征的量化分析,导致在作者身份识别和模仿检测方面存在盲区。

核心思路:通过对比分析原始文学文本与LLM重写文本的嵌入向量分布,利用嵌入离散度(Embedding Dispersion)作为度量指标,评估模型在保持语义的同时,对作者独特语言风格的保留或重构能力。

技术框架:研究流程包括:1. 构建包含多位法语作家风格的受控文学数据集;2. 使用多种LLM对文本进行风格重写;3. 提取不同模型生成的嵌入向量;4. 计算原始文本与重写文本在嵌入空间中的距离及离散度变化,并进行统计分析。

关键创新:创新性地将嵌入离散度引入风格分析,不仅验证了风格特征在嵌入空间中的存在性,还揭示了不同LLM在处理风格信息时的“模型指纹”效应,为区分人类创作与机器模仿提供了量化依据。

关键设计:采用受控实验设计,确保重写过程中的语义内容保持一致,从而将变量聚焦于风格特征。通过对比不同模型(如GPT系列、开源模型等)的嵌入表现,量化了风格信号在不同模型架构下的衰减或迁移模式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,嵌入向量对作者风格具有极高的敏感度,即使经过LLM重写,原始作者的风格信号依然能被显著识别。研究发现不同模型在重写时表现出独特的“风格偏移”模式,且在特定任务中,嵌入离散度的变化能有效区分不同模型的处理特征,为后续的作者身份模仿检测提供了强有力的统计学证据。

🎯 应用场景

该研究在数字取证、版权保护及学术诚信领域具有重要价值。特别是在检测AI生成的伪造文本、识别文学作品的真实作者身份以及评估大语言模型在创意写作中的风格模仿能力方面,提供了科学的量化评估工具,有助于构建更可靠的AI内容溯源系统。

📄 摘要(原文)

Large language models (LLMs) can convincingly imitate human writing styles, yet it remains unclear how much stylistic information is encoded in embeddings from any language model and retained after LLM rewriting. We investigate these questions in French, using a controlled literary dataset to quantify the effect of stylistic variation via changes in embedding dispersion. We observe that embeddings reliably capture authorial stylistic features and that these signals persist after rewriting, while also exhibiting LLM-specific patterns. These analytical results offer promising directions for authorship imitation detection in the era of language models.