Catch Me If You Can? Not Yet: LLMs Still Struggle to Imitate the Implicit Writing Styles of Everyday Authors

📄 arXiv: 2509.14543v1 📥 PDF

作者: Zhengxiang Wang, Nafis Irtiza Tripto, Solha Park, Zhenzhen Li, Jiawei Zhou

分类: cs.CL, cs.AI

发布日期: 2025-09-18

备注: EMNLP 2025 (Findings)


💡 一句话要点

评估大语言模型模仿个人写作风格能力:现有模型在非正式文体中表现不足

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 写作风格模仿 上下文学习 风格迁移 个性化写作

📋 核心要点

  1. 现有大型语言模型难以准确捕捉和模仿个人写作风格中细微的、隐式的特征,尤其是在非正式文体中。
  2. 该研究通过上下文学习,利用少量用户写作样本,评估LLMs模仿个人写作风格的能力,并分析不同提示策略的影响。
  3. 实验结果表明,LLMs在结构化文体(如新闻和邮件)中表现较好,但在非正式文体(如博客和论坛)中表现不佳,个性化适应存在差距。

📝 摘要(中文)

随着大型语言模型(LLMs)日益融入个人写作工具,一个关键问题浮出水面:LLMs能否仅从少量示例中忠实地模仿个人的写作风格?个人风格通常是微妙和隐式的,难以通过提示明确指定,但对于用户对齐的生成至关重要。本文对最先进的LLMs通过少量用户创作样本进行上下文学习来模仿个人写作风格的能力进行了全面评估。我们引入了一组互补的指标,包括作者身份归属、作者身份验证、风格匹配和AI检测,以稳健地评估风格模仿。我们的评估涵盖了每个模型在新闻、电子邮件、论坛和博客等领域超过40000个生成结果,涵盖了来自400多位真实作者的写作样本。结果表明,虽然LLMs可以在新闻和电子邮件等结构化格式中近似用户风格,但它们在博客和论坛中难以处理细微的非正式写作。对各种提示策略(如演示数量)的进一步分析揭示了有效个性化的关键局限性。我们的研究结果突出了个性化LLM适应方面的根本差距,以及改进技术以支持隐式、风格一致的生成的需求。为了帮助未来的研究和可重复性,我们开源了我们的数据和代码。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在模仿个人写作风格方面的不足,尤其是在用户风格具有隐式性和微妙性的情况下。现有方法难以通过简单的提示词来精确控制LLM的输出风格,导致生成的文本与目标作者的风格不一致。这种不一致性限制了LLM在个性化写作辅助工具中的应用。

核心思路:论文的核心思路是通过上下文学习(in-context learning),即向LLM提供少量目标作者的写作样本,让LLM从中学习并模仿其写作风格。通过这种方式,避免了显式地定义风格特征,而是让LLM自动捕捉隐式的风格信息。同时,论文设计了一系列评估指标,用于全面衡量LLM的风格模仿能力。

技术框架:该研究的技术框架主要包括以下几个部分:1) 数据收集:收集来自不同领域(新闻、邮件、论坛、博客)的真实作者的写作样本。2) 模型选择:选择当前最先进的LLMs作为研究对象。3) 提示策略:设计不同的提示策略,例如改变演示样本的数量。4) 风格生成:使用LLM生成文本,并尝试模仿目标作者的风格。5) 风格评估:使用一系列指标评估生成的文本与目标作者风格的相似度。

关键创新:论文的关键创新在于:1) 提出了一个全面的评估框架,用于衡量LLM的风格模仿能力,包括作者身份归属、作者身份验证、风格匹配和AI检测等多个维度。2) 揭示了LLM在不同文体中风格模仿能力的差异,发现LLM在非正式文体中表现较差。3) 分析了不同提示策略对风格模仿效果的影响,为未来的研究提供了指导。

关键设计:论文的关键设计包括:1) 采用了多种评估指标,以全面衡量LLM的风格模仿能力。这些指标包括:作者身份归属(判断生成的文本是否能被归属到目标作者)、作者身份验证(判断生成的文本是否与目标作者的风格一致)、风格匹配(衡量生成的文本与目标作者风格的相似度)和AI检测(判断生成的文本是否容易被识别为机器生成)。2) 实验中使用了超过400位真实作者的写作样本,保证了实验结果的可靠性。3) 针对不同的文体,采用了不同的提示策略,以探索最佳的风格模仿效果。

📊 实验亮点

实验结果表明,LLMs在结构化文体(如新闻和邮件)中能够较好地模仿个人写作风格,但在非正式文体(如博客和论坛)中表现不佳。例如,在作者身份归属任务中,LLMs在新闻文体中的准确率高于博客文体。此外,实验还发现,增加演示样本的数量并不一定能提高风格模仿的效果,有时反而会降低性能。

🎯 应用场景

该研究成果可应用于个性化写作辅助工具的开发,例如帮助用户生成风格一致的邮件、博客文章等。此外,该研究还可以用于检测AI生成的文本,防止恶意使用LLM进行虚假信息传播。未来的研究可以探索更有效的风格迁移方法,提高LLM在各种文体中的风格模仿能力。

📄 摘要(原文)

As large language models (LLMs) become increasingly integrated into personal writing tools, a critical question arises: can LLMs faithfully imitate an individual's writing style from just a few examples? Personal style is often subtle and implicit, making it difficult to specify through prompts yet essential for user-aligned generation. This work presents a comprehensive evaluation of state-of-the-art LLMs' ability to mimic personal writing styles via in-context learning from a small number of user-authored samples. We introduce an ensemble of complementary metrics-including authorship attribution, authorship verification, style matching, and AI detection-to robustly assess style imitation. Our evaluation spans over 40000 generations per model across domains such as news, email, forums, and blogs, covering writing samples from more than 400 real-world authors. Results show that while LLMs can approximate user styles in structured formats like news and email, they struggle with nuanced, informal writing in blogs and forums. Further analysis on various prompting strategies such as number of demonstrations reveal key limitations in effective personalization. Our findings highlight a fundamental gap in personalized LLM adaptation and the need for improved techniques to support implicit, style-consistent generation. To aid future research and for reproducibility, we open-source our data and code.