An Empirical Comparison of Text Summarization: A Multi-Dimensional Evaluation of Large Language Models

作者: Anantharaman Janakiraman, Behnaz Ghoraani

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-04-06

💡 一句话要点

提出多维评估框架以比较大型语言模型的文本摘要性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本摘要 大型语言模型 多维评估 事实一致性 语义相似性 处理效率 模型选择 信息过载

📋 核心要点

现有文本摘要方法在处理不同领域时表现不均，尤其在技术领域的准确性不足。
本研究提出了一种多维评估框架，综合考虑摘要质量和处理效率，以评估大型语言模型的性能。
实验结果显示，特定模型在不同维度上表现突出，为模型选择提供了实证依据，尤其在高风险和资源受限场景中。

📝 摘要（中文）

文本摘要在新闻、医学和商业等领域中至关重要，有助于缓解信息过载。本研究通过一个新颖的多维框架评估了17个大型语言模型（包括OpenAI、Google、Anthropic及开源模型）的摘要性能。我们在七个不同的数据集（BigPatent、BillSum、CNN/DailyMail、PubMed、SAMSum、WikiHow、XSum）上，针对三种输出长度（50、100、150个标记）进行了评估，使用了事实一致性、语义相似性、词汇重叠和人类质量等指标，同时考虑了效率因素。研究发现，模型在性能上存在显著差异，特定模型在事实准确性（deepseek-v3）、人类质量（claude-3-5-sonnet）和处理效率/成本效益（gemini-1.5-flash、gemini-2.0-flash）方面表现优异。不同数据集的表现差异显著，模型在技术领域表现不佳，但在对话内容上表现良好。我们识别出事实一致性（在50个标记时最佳）与感知质量（在150个标记时最佳）之间的关键矛盾。我们的分析为不同应用场景提供了基于证据的建议，从需要事实准确性的高风险应用到需要高效处理的资源受限环境。

🔬 方法详解

问题定义：本研究旨在解决现有文本摘要模型在不同领域表现不均的问题，尤其是在技术领域的事实一致性不足。

核心思路：通过提出一个多维评估框架，综合考虑摘要的质量和效率，来全面评估大型语言模型的性能。

技术框架：研究采用了七个不同的数据集，针对三种输出长度进行评估，使用多种指标（如事实一致性、语义相似性等）进行综合分析。

关键创新：本研究的创新点在于将质量指标与操作考虑相结合，提出了一种新的评估方法，能够有效指导模型选择。

关键设计：在实验中，设置了不同的输出长度和评估指标，确保对模型性能的全面评估，同时考虑了处理效率和成本效益。

🖼️ 关键图片

📊 实验亮点

实验结果显示，deepseek-v3在事实准确性上表现最佳，claude-3-5-sonnet在生成的摘要质量上优于其他模型，而gemini-1.5-flash和gemini-2.0-flash在处理效率和成本效益方面表现突出。不同数据集的表现差异显著，尤其在技术领域，模型的表现存在明显的提升空间。

🎯 应用场景

该研究的潜在应用领域包括新闻摘要、医学文献综述和商业报告生成等。通过提供基于证据的模型选择建议，能够帮助用户在不同场景下选择最合适的文本摘要工具，提升信息处理效率和准确性。未来，该框架还可扩展至其他自然语言处理任务，推动相关领域的发展。

📄 摘要（原文）

Text summarization is crucial for mitigating information overload across domains like journalism, medicine, and business. This research evaluates summarization performance across 17 large language models (OpenAI, Google, Anthropic, open-source) using a novel multi-dimensional framework. We assessed models on seven diverse datasets (BigPatent, BillSum, CNN/DailyMail, PubMed, SAMSum, WikiHow, XSum) at three output lengths (50, 100, 150 tokens) using metrics for factual consistency, semantic similarity, lexical overlap, and human-like quality, while also considering efficiency factors. Our findings reveal significant performance differences, with specific models excelling in factual accuracy (deepseek-v3), human-like quality (claude-3-5-sonnet), and processing efficiency/cost-effectiveness (gemini-1.5-flash, gemini-2.0-flash). Performance varies dramatically by dataset, with models struggling on technical domains but performing well on conversational content. We identified a critical tension between factual consistency (best at 50 tokens) and perceived quality (best at 150 tokens). Our analysis provides evidence-based recommendations for different use cases, from high-stakes applications requiring factual accuracy to resource-constrained environments needing efficient processing. This comprehensive approach enhances evaluation methodology by integrating quality metrics with operational considerations, incorporating trade-offs between accuracy, efficiency, and cost-effectiveness to guide model selection for specific applications.

An Empirical Comparison of Text Summarization: A Multi-Dimensional Evaluation of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理