Beyond Token Limits: Assessing Language Model Performance on Long Text Classification

📄 arXiv: 2509.10199v3 📥 PDF

作者: Miklós Sebők, Viktor Kovács, Martin Bánóczy, Daniel Møller Eriksen, Nathalie Neptune, Philippe Roussille

分类: cs.CL

发布日期: 2025-09-12 (更新: 2025-09-26)


💡 一句话要点

评估语言模型在长文本分类任务中的性能,突破Token长度限制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本分类 语言模型 性能评估 Longformer GPT 法律文本分析 政策分类 多语言

📋 核心要点

  1. 现有BERT等模型Token长度限制,难以处理法律等长文本分类任务。
  2. 对比XLM-RoBERTa、Longformer、GPT等模型在长文本分类任务上的性能。
  3. 实验表明,Longformer无明显优势,开源模型优于GPT,类别重叠影响性能。

📝 摘要(中文)

社交科学领域广泛使用的大型语言模型(如BERT及其衍生模型RoBERTa)在处理长文本输入时存在Token长度限制。这对于需要处理长文本的分类任务(例如法律和草案分类,其长度可达数百页)而言是一个严峻的问题。本文针对比较议程项目(Comparative Agendas Project)的多类别分类任务,使用XLM-RoBERTa、Longformer、GPT-3.5和GPT-4模型,在五种语言上进行了实验,该任务包含从教育到医疗保健的21个政策主题标签。结果表明,专门为处理长输入而预训练的Longformer模型并没有表现出明显的优势。GPT系列模型与表现最佳的开源模型相比,后者更胜一筹。对类别层面因素的分析表明,在处理长文本输入时,特定类别之间的支持和实质性重叠至关重要。

🔬 方法详解

问题定义:论文旨在解决长文本分类任务中,现有预训练语言模型(如BERT及其变体)由于token长度限制而无法有效处理长文档的问题。具体来说,法律文件、政策文本等通常具有很长的篇幅,超过了这些模型所能接受的输入长度,导致信息截断和性能下降。现有方法无法充分利用长文本中的信息,影响分类准确性。

核心思路:论文的核心思路是通过实验对比不同类型的语言模型在长文本分类任务上的表现,包括专门为处理长文本设计的模型(如Longformer)和通用的大型语言模型(如GPT系列)。通过分析实验结果,评估这些模型在处理长文本时的优缺点,并探讨影响模型性能的因素,例如类别之间的语义重叠。

技术框架:论文采用实验研究的方法,没有提出新的模型架构或训练方法。其技术框架主要包括以下几个步骤:1)选择比较议程项目(Comparative Agendas Project)的多类别分类任务作为benchmark,该任务涉及对法律文件进行分类,并具有多个类别标签。2)选择XLM-RoBERTa、Longformer、GPT-3.5和GPT-4等模型进行实验。3)在五种语言的数据集上进行实验,评估模型的分类性能。4)分析实验结果,比较不同模型的性能差异,并探讨影响模型性能的因素。

关键创新:论文的主要创新在于对现有语言模型在长文本分类任务上的性能进行了系统的评估和比较。虽然没有提出新的模型或算法,但通过实验揭示了Longformer等专门为处理长文本设计的模型并没有表现出明显的优势,而通用的大型语言模型在某些情况下可能更有效。此外,论文还探讨了类别之间的语义重叠对模型性能的影响,为未来的研究提供了有价值的见解。

关键设计:论文的关键设计在于实验设置和评估指标。论文选择了比较议程项目(Comparative Agendas Project)的多类别分类任务,该任务具有一定的挑战性,可以有效地评估模型在处理长文本时的性能。论文使用了标准的分类评估指标,如准确率、精确率、召回率和F1值,来衡量模型的性能。此外,论文还对类别层面的因素进行了分析,探讨了类别之间的语义重叠对模型性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,专门为处理长文本设计的Longformer模型在比较议程项目(Comparative Agendas Project)的多类别分类任务中并没有表现出明显的优势。与此相反,表现最佳的开源模型在某些情况下优于GPT系列模型。此外,类别层面的分析表明,类别之间的支持和实质性重叠是影响模型性能的重要因素。

🎯 应用场景

该研究成果可应用于法律文本分析、政策文件分类、长篇新闻报道主题识别等领域。通过选择合适的语言模型和优化分类策略,可以提高长文本分类的准确性和效率,辅助决策制定和信息检索。未来的研究可以探索如何进一步提升模型在处理长文本时的性能,例如通过引入更有效的注意力机制或采用分层分类方法。

📄 摘要(原文)

The most widely used large language models in the social sciences (such as BERT, and its derivatives, e.g. RoBERTa) have a limitation on the input text length that they can process to produce predictions. This is a particularly pressing issue for some classification tasks, where the aim is to handle long input texts. One such area deals with laws and draft laws (bills), which can have a length of multiple hundred pages and, therefore, are not particularly amenable for processing with models that can only handle e.g. 512 tokens. In this paper, we show results from experiments covering 5 languages with XLM-RoBERTa, Longformer, GPT-3.5, GPT-4 models for the multiclass classification task of the Comparative Agendas Project, which has a codebook of 21 policy topic labels from education to health care. Results show no particular advantage for the Longformer model, pre-trained specifically for the purposes of handling long inputs. The comparison between the GPT variants and the best-performing open model yielded an edge for the latter. An analysis of class-level factors points to the importance of support and substance overlaps between specific categories when it comes to performance on long text inputs.