From Small to Large Language Models: Revisiting the Federalist Papers

📄 arXiv: 2503.01869v2 📥 PDF

作者: So Won Jeong, Veronika Ročková

分类: cs.CL, cs.LG, stat.ML

发布日期: 2025-02-25 (更新: 2025-04-11)


💡 一句话要点

重探《联邦党人文集》作者归属问题:对比小型与大型语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 作者归属 联邦党人文集 大型语言模型 小型语言模型 主题嵌入 贝叶斯分析 文本分类

📋 核心要点

  1. 现有大型语言模型在作者归属任务中表现不佳,缺乏针对性的优化和理论支撑。
  2. 论文核心在于对比小型统计语言模型与大型语言模型在作者归属任务中的表现,并探究其差异。
  3. 实验表明,基于功能词训练的主题嵌入的贝叶斯分析优于默认LLM嵌入,即使经过微调。

📝 摘要(中文)

长期以来,《联邦党人文集》的作者身份一直是语言学家、历史学家以及统计学家们争论和研究的主题。莫斯特勒和华莱士(1963)在一项可以说是最早的贝叶斯案例研究中,提供了第一个统计证据,将所有有争议的文章归于麦迪逊。本文从现代语言模型(包括小型和大型模型)的角度重新审视了这个历史数据集。我们回顾了一些流行的LLM工具,并从文本分类的统计角度对其进行了考察。我们研究了在没有任何微调的情况下,通用嵌入结构是否可用于文体学和作者归属。我们解释了各种词/短语嵌入之间的差异,并讨论了如何在文档中聚合它们。与我们的预期相反,我们举例说明了相对于使用主题嵌入进行降维,使用词嵌入进行维度扩展可能并不总是有利于作者归属。我们的实验表明,默认的LLM嵌入(即使在手动微调后)可能无法持续提高作者归属的准确性。相反,使用在“功能词”上训练的主题嵌入进行贝叶斯分析可以产生更好的样本外分类性能。这表明,传统的(小型)统计语言模型凭借其可解释性和坚实的理论基础,可以在作者归属任务中提供显著的优势。该分析中使用的代码可在github.com/sowonjeong/slm-to-llm上找到。

🔬 方法详解

问题定义:论文旨在解决《联邦党人文集》的作者归属问题,即确定有争议的文章是由汉密尔顿还是麦迪逊所写。现有大型语言模型虽然强大,但在作者归属任务中表现并不理想,可能因为缺乏针对性的训练和对文体特征的有效捕捉。

核心思路:论文的核心思路是对比传统的小型统计语言模型(SLM)和现代大型语言模型(LLM)在作者归属任务中的表现。通过分析不同模型的嵌入方式和分类性能,揭示SLM在特定任务中可能优于LLM的原因。论文强调了基于“功能词”的主题嵌入在贝叶斯分析中的优势。

技术框架:论文的技术框架主要包括以下几个阶段:1) 数据预处理:对《联邦党人文集》进行清洗和准备。2) 特征提取:使用不同的方法提取文本特征,包括词嵌入(word embeddings)和主题嵌入(topic embeddings)。3) 模型训练:训练小型统计语言模型(如基于贝叶斯方法的模型)和使用预训练的LLM。4) 性能评估:使用交叉验证等方法评估不同模型在作者归属任务中的分类准确率。

关键创新:论文的关键创新在于对传统统计语言模型和现代大型语言模型在作者归属任务中的对比分析。它挑战了“越大越好”的普遍认知,表明在特定任务中,小型模型凭借其可解释性和针对性,可能优于大型模型。此外,论文强调了基于功能词的主题嵌入在作者归属中的重要性。

关键设计:论文的关键设计包括:1) 功能词的选择:选择对作者风格具有指示意义的功能词作为主题嵌入的训练数据。2) 嵌入方式的比较:对比不同词嵌入(如Word2Vec、GloVe)和主题嵌入(如LDA)在作者归属任务中的效果。3) 贝叶斯分析的应用:使用贝叶斯方法对不同模型的输出进行概率推断,从而进行作者归属。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用在“功能词”上训练的主题嵌入进行贝叶斯分析,能够获得优于默认LLM嵌入(即使经过手动微调)的样本外分类性能。这表明,在作者归属任务中,精心设计的传统统计语言模型可能比直接使用大型语言模型更有效。

🎯 应用场景

该研究成果可应用于文本分析、作者身份验证、版权保护等领域。通过对比不同语言模型在作者归属任务中的表现,可以为选择合适的模型提供指导,并为开发更有效的作者身份识别技术提供借鉴。此外,该研究也强调了传统统计方法在特定任务中的价值。

📄 摘要(原文)

For a long time, the authorship of the Federalist Papers had been a subject of inquiry and debate, not only by linguists and historians but also by statisticians. In what was arguably the first Bayesian case study, Mosteller and Wallace (1963) provided the first statistical evidence for attributing all disputed papers to Madison. Our paper revisits this historical dataset but from a lens of modern language models, both small and large. We review some of the more popular Large Language Model (LLM) tools and examine them from a statistical point of view in the context of text classification. We investigate whether, without any attempt to fine-tune, the general embedding constructs can be useful for stylometry and attribution. We explain differences between various word/phrase embeddings and discuss how to aggregate them in a document. Contrary to our expectations, we exemplify that dimension expansion with word embeddings may not always be beneficial for attribution relative to dimension reduction with topic embeddings. Our experiments demonstrate that default LLM embeddings (even after manual fine-tuning) may not consistently improve authorship attribution accuracy. Instead, Bayesian analysis with topic embeddings trained on ``function words" yields superior out-of-sample classification performance. This suggests that traditional (small) statistical language models, with their interpretability and solid theoretical foundation, can offer significant advantages in authorship attribution tasks. The code used in this analysis is available at github.com/sowonjeong/slm-to-llm