An Evaluation of Large Language Models on Text Summarization Tasks Using Prompt Engineering Techniques

📄 arXiv: 2507.05123v1 📥 PDF

作者: Walid Mohamed Aly, Taysir Hassan A. Soliman, Amr Mohamed AbdelAziz

分类: cs.CL, cs.AI

发布日期: 2025-07-07

备注: This manuscript is an extended version of the work accepted for publication in the International Journal of Advanced Computer Science and Applications (IJACSA), Volume 16, Issue 6, June 2025


💡 一句话要点

通过Prompt工程评估大型语言模型在文本摘要任务上的性能,并提出句子分块策略优化长文档摘要。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本摘要 Prompt工程 零样本学习 上下文学习 长文档处理 句子分块 ROUGE评估

📋 核心要点

  1. 现有大型语言模型在文本摘要任务上的性能评估不够全面,尤其是在不同领域和数据集上的表现存在差异。
  2. 论文提出利用Prompt工程技术,包括零样本和上下文学习,并针对长文档引入句子分块策略,提升摘要效果。
  3. 实验结果表明,分块策略显著提升了LLMs在长篇科学文档上的摘要性能,并分析了模型参数、数据集和Prompt设计的影响。

📝 摘要(中文)

大型语言模型(LLMs)在自然语言处理领域不断进步,能够生成类似人类的文本,应用于各种任务。尽管LLMs在NLP中取得了显著成功,但它们在不同领域和数据集上的文本摘要性能尚未得到全面评估。同时,在不依赖大量训练数据的情况下有效总结文本的能力已成为一个关键瓶颈。为了解决这些问题,我们对六个LLMs在四个数据集上进行了系统评估:CNN/Daily Mail和NewsRoom(新闻)、SAMSum(对话)和ArXiv(科学)。通过利用包括零样本和上下文学习在内的prompt工程技术,我们的研究使用ROUGE和BERTScore指标评估了性能。此外,还对推理时间进行了详细分析,以更好地理解摘要质量和计算效率之间的权衡。对于长文档,引入了一种基于句子的分块策略,使具有较短上下文窗口的LLMs能够分多个阶段总结扩展的输入。研究结果表明,虽然LLMs在新闻和对话任务上表现出竞争力,但在分块策略的帮助下,它们在长篇科学文档上的性能显著提高。此外,基于模型参数、数据集属性和prompt设计,观察到显著的性能差异。这些结果为不同LLMs在任务类型中的行为提供了可操作的见解,有助于高效的、基于指令的NLP系统的持续研究。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在文本摘要任务中,尤其是在处理长文档和不同领域数据时,性能评估不充分的问题。现有方法在不依赖大量训练数据的情况下,难以有效总结文本,且缺乏对不同LLM在不同任务类型上的系统性分析。

核心思路:论文的核心思路是利用Prompt工程技术,通过设计合适的Prompt来引导LLMs进行文本摘要,并针对长文档提出句子分块策略,将长文本分割成多个片段,分阶段进行摘要,从而克服LLMs上下文窗口的限制。这样设计的目的是为了在不进行大量训练的情况下,充分发挥LLMs的文本生成能力,并提高其在长文档摘要任务中的性能。

技术框架:整体框架包括以下几个主要阶段:1) 数据集选择:选择涵盖新闻、对话和科学文档等不同领域的数据集。2) 模型选择:选择多个具有代表性的大型语言模型进行评估。3) Prompt设计:设计零样本和上下文学习等不同类型的Prompt。4) 摘要生成:利用LLMs和设计的Prompt生成文本摘要。5) 性能评估:使用ROUGE和BERTScore等指标评估摘要质量,并分析推理时间。6) 长文档处理:对于长文档,采用句子分块策略,将文档分割成多个片段,分别进行摘要,然后将摘要结果进行整合。

关键创新:论文的关键创新在于:1) 系统性地评估了多个LLMs在不同领域和数据集上的文本摘要性能。2) 提出了针对长文档的句子分块策略,有效解决了LLMs上下文窗口的限制问题。3) 分析了模型参数、数据集属性和Prompt设计对摘要性能的影响,为LLMs在文本摘要任务中的应用提供了指导。

关键设计:句子分块策略的关键设计在于如何确定合适的片段大小,以及如何将多个片段的摘要结果进行有效整合。论文可能采用固定大小的句子窗口,或者根据文档结构(如段落)进行分割。摘要结果的整合可能采用简单的拼接,或者利用LLMs进行进一步的摘要和提炼。具体的参数设置(如片段大小、重叠比例)和整合方法需要在实验中进行调整和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLMs在新闻和对话摘要任务上表现出竞争力,但在长篇科学文档摘要任务中,采用句子分块策略后,性能得到显著提升。通过对比不同模型和Prompt设计,发现模型参数、数据集属性和Prompt设计对摘要性能有显著影响。例如,某些模型在特定数据集上表现更佳,而某些Prompt设计能够更好地引导LLMs生成高质量的摘要。

🎯 应用场景

该研究成果可应用于多个领域,如新闻摘要、对话摘要、科学文献摘要等。通过Prompt工程和句子分块策略,可以提高LLMs在文本摘要任务中的效率和质量,降低对大量训练数据的依赖,从而为信息检索、知识管理和智能助手等应用提供更强大的支持。未来,该研究可以进一步扩展到其他类型的文本数据和任务,并探索更有效的Prompt设计和分块策略。

📄 摘要(原文)

Large Language Models (LLMs) continue to advance natural language processing with their ability to generate human-like text across a range of tasks. Despite the remarkable success of LLMs in Natural Language Processing (NLP), their performance in text summarization across various domains and datasets has not been comprehensively evaluated. At the same time, the ability to summarize text effectively without relying on extensive training data has become a crucial bottleneck. To address these issues, we present a systematic evaluation of six LLMs across four datasets: CNN/Daily Mail and NewsRoom (news), SAMSum (dialog), and ArXiv (scientific). By leveraging prompt engineering techniques including zero-shot and in-context learning, our study evaluates the performance using the ROUGE and BERTScore metrics. In addition, a detailed analysis of inference times is conducted to better understand the trade-off between summarization quality and computational efficiency. For Long documents, introduce a sentence-based chunking strategy that enables LLMs with shorter context windows to summarize extended inputs in multiple stages. The findings reveal that while LLMs perform competitively on news and dialog tasks, their performance on long scientific documents improves significantly when aided by chunking strategies. In addition, notable performance variations were observed based on model parameters, dataset properties, and prompt design. These results offer actionable insights into how different LLMs behave across task types, contributing to ongoing research in efficient, instruction-based NLP systems.