An Empirical Comparison of Text Summarization: A Multi-Dimensional Evaluation of Large Language Models

📄 arXiv: 2504.04534v1 📥 PDF

作者: Anantharaman Janakiraman, Behnaz Ghoraani

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-04-06


💡 一句话要点

提出多维评估框架以比较大型语言模型的文本摘要性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本摘要 大型语言模型 多维评估 事实一致性 语义相似性 处理效率 模型选择 信息过载

📋 核心要点

  1. 现有文本摘要方法在处理不同领域时表现不均,尤其在技术领域的准确性不足。
  2. 本研究提出了一种多维评估框架,综合考虑摘要质量和处理效率,以评估大型语言模型的性能。
  3. 实验结果显示,特定模型在不同维度上表现突出,为模型选择提供了实证依据,尤其在高风险和资源受限场景中。

📝 摘要(中文)

文本摘要在新闻、医学和商业等领域中至关重要,有助于缓解信息过载。本研究通过一个新颖的多维框架评估了17个大型语言模型(包括OpenAI、Google、Anthropic及开源模型)的摘要性能。我们在七个不同的数据集(BigPatent、BillSum、CNN/DailyMail、PubMed、SAMSum、WikiHow、XSum)上,针对三种输出长度(50、100、150个标记)进行了评估,使用了事实一致性、语义相似性、词汇重叠和人类质量等指标,同时考虑了效率因素。研究发现,模型在性能上存在显著差异,特定模型在事实准确性(deepseek-v3)、人类质量(claude-3-5-sonnet)和处理效率/成本效益(gemini-1.5-flash、gemini-2.0-flash)方面表现优异。不同数据集的表现差异显著,模型在技术领域表现不佳,但在对话内容上表现良好。我们识别出事实一致性(在50个标记时最佳)与感知质量(在150个标记时最佳)之间的关键矛盾。我们的分析为不同应用场景提供了基于证据的建议,从需要事实准确性的高风险应用到需要高效处理的资源受限环境。

🔬 方法详解

问题定义:本研究旨在解决现有文本摘要模型在不同领域表现不均的问题,尤其是在技术领域的事实一致性不足。

核心思路:通过提出一个多维评估框架,综合考虑摘要的质量和效率,来全面评估大型语言模型的性能。

技术框架:研究采用了七个不同的数据集,针对三种输出长度进行评估,使用多种指标(如事实一致性、语义相似性等)进行综合分析。

关键创新:本研究的创新点在于将质量指标与操作考虑相结合,提出了一种新的评估方法,能够有效指导模型选择。

关键设计:在实验中,设置了不同的输出长度和评估指标,确保对模型性能的全面评估,同时考虑了处理效率和成本效益。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,deepseek-v3在事实准确性上表现最佳,claude-3-5-sonnet在生成的摘要质量上优于其他模型,而gemini-1.5-flash和gemini-2.0-flash在处理效率和成本效益方面表现突出。不同数据集的表现差异显著,尤其在技术领域,模型的表现存在明显的提升空间。

🎯 应用场景

该研究的潜在应用领域包括新闻摘要、医学文献综述和商业报告生成等。通过提供基于证据的模型选择建议,能够帮助用户在不同场景下选择最合适的文本摘要工具,提升信息处理效率和准确性。未来,该框架还可扩展至其他自然语言处理任务,推动相关领域的发展。

📄 摘要(原文)

Text summarization is crucial for mitigating information overload across domains like journalism, medicine, and business. This research evaluates summarization performance across 17 large language models (OpenAI, Google, Anthropic, open-source) using a novel multi-dimensional framework. We assessed models on seven diverse datasets (BigPatent, BillSum, CNN/DailyMail, PubMed, SAMSum, WikiHow, XSum) at three output lengths (50, 100, 150 tokens) using metrics for factual consistency, semantic similarity, lexical overlap, and human-like quality, while also considering efficiency factors. Our findings reveal significant performance differences, with specific models excelling in factual accuracy (deepseek-v3), human-like quality (claude-3-5-sonnet), and processing efficiency/cost-effectiveness (gemini-1.5-flash, gemini-2.0-flash). Performance varies dramatically by dataset, with models struggling on technical domains but performing well on conversational content. We identified a critical tension between factual consistency (best at 50 tokens) and perceived quality (best at 150 tokens). Our analysis provides evidence-based recommendations for different use cases, from high-stakes applications requiring factual accuracy to resource-constrained environments needing efficient processing. This comprehensive approach enhances evaluation methodology by integrating quality metrics with operational considerations, incorporating trade-offs between accuracy, efficiency, and cost-effectiveness to guide model selection for specific applications.