PersonalSum: A User-Subjective Guided Personalized Summarization Dataset for Large Language Models

📄 arXiv: 2410.03905v1 📥 PDF

作者: Lemei Zhang, Peng Liu, Marcus Tiedemann Oekland Henriksboe, Even W. Lauvrak, Jon Atle Gulla, Heri Ramampiaro

分类: cs.CL

发布日期: 2024-10-04

备注: Accepted at NeurIPS 2024 Track on Datasets and Benchmarks. Code available at https://github.com/SmartmediaAI/PersonalSum


💡 一句话要点

PersonalSum:一个用户主观引导的个性化摘要数据集,用于评估大型语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个性化摘要 大型语言模型 用户画像 数据集构建 少样本学习

📋 核心要点

  1. 现有大型语言模型生成的通用摘要难以满足用户个性化需求,缺乏高质量的、人工标注的个性化摘要数据集。
  2. PersonalSum数据集通过收集用户画像和个性化摘要,研究用户关注点与通用摘要的差异,弥合了数据集的空白。
  3. 初步实验表明,实体/主题只是影响用户偏好的因素之一,个性化摘要对现有LLM仍然具有挑战性。

📝 摘要(中文)

随着近年来自然语言处理的快速发展,大量研究表明,根据人类评估,大型语言模型(LLM)生成的通用摘要有时可以超过专家(如记者)注释的摘要。然而,关于这些通用摘要是否满足普通人的个性化需求的研究有限。最大的障碍是缺乏来自公众的人工标注数据集。现有的个性化摘要工作通常依赖于从通用摘要数据集中创建的伪数据集,或者侧重于特定命名实体或其他方面的可控任务,例如生成摘要的长度和特异性,这些数据是从没有注释者主动性的假设任务中收集的。为了弥合这一差距,我们提出了一个高质量的、个性化的、手动注释的抽象摘要数据集,名为PersonalSum。该数据集首次研究了公众读者的关注点是否与LLM生成的通用摘要不同。它包括用户画像、带有给定文章来源句子的个性化摘要,以及机器生成的通用摘要及其来源。我们研究了几种可能影响LLM在少样本上下文学习场景中生成个性化摘要的个人信号——实体/主题、情节和文章结构。我们的初步结果和分析表明,实体/主题仅仅是影响用户不同偏好的关键因素之一,个性化摘要对于现有LLM来说仍然是一个重大挑战。

🔬 方法详解

问题定义:论文旨在解决大型语言模型生成的通用摘要无法满足用户个性化需求的问题。现有方法主要依赖于伪数据集或可控任务,缺乏真实用户标注的个性化摘要数据,难以反映用户的真实偏好。

核心思路:论文的核心思路是构建一个高质量的、人工标注的个性化摘要数据集PersonalSum,该数据集包含用户画像、个性化摘要以及对应的原文句子。通过分析用户画像与个性化摘要之间的关系,可以更好地理解用户偏好,并用于训练和评估个性化摘要模型。

技术框架:PersonalSum数据集的构建流程主要包括以下几个步骤:1) 设计用户画像,包括用户的兴趣、背景等信息;2) 收集新闻文章等文本数据;3) 招募用户,根据用户画像阅读文章并生成个性化摘要;4) 对摘要进行质量评估和标注。同时,论文还利用该数据集,在少样本学习场景下,研究了实体/主题、情节和文章结构等个人信号对LLM生成个性化摘要的影响。

关键创新:该论文的关键创新在于构建了首个用户主观引导的个性化摘要数据集PersonalSum。该数据集的特点是:1) 数据来源于真实用户,能够反映用户的真实偏好;2) 数据包含用户画像信息,可以用于研究用户偏好与摘要内容之间的关系;3) 数据集规模较大,可以用于训练和评估大型语言模型。

关键设计:论文中,用户画像的设计考虑了多个维度,包括用户的兴趣、背景、知识水平等。在摘要生成过程中,要求用户根据自己的理解和偏好,选择文章中最重要的句子进行总结。在实验中,采用了少样本学习的方式,探索了不同的个人信号对LLM生成个性化摘要的影响。具体而言,使用了不同的prompt,将用户画像信息融入到prompt中,引导LLM生成个性化摘要。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建的PersonalSum数据集包含用户画像、个性化摘要和原文句子,为个性化摘要研究提供了重要资源。初步实验结果表明,实体/主题只是影响用户偏好的因素之一,个性化摘要对现有LLM仍然具有挑战性。该研究为后续的个性化摘要研究提供了新的方向和思路。

🎯 应用场景

该研究成果可应用于个性化新闻推荐、智能客服、教育等领域。通过理解用户的个性化需求,可以为用户提供更精准、更符合其兴趣的内容,提升用户体验。未来,可以进一步研究如何利用用户画像信息,训练更强大的个性化摘要模型,实现更智能化的信息服务。

📄 摘要(原文)

With the rapid advancement of Natural Language Processing in recent years, numerous studies have shown that generic summaries generated by Large Language Models (LLMs) can sometimes surpass those annotated by experts, such as journalists, according to human evaluations. However, there is limited research on whether these generic summaries meet the individual needs of ordinary people. The biggest obstacle is the lack of human-annotated datasets from the general public. Existing work on personalized summarization often relies on pseudo datasets created from generic summarization datasets or controllable tasks that focus on specific named entities or other aspects, such as the length and specificity of generated summaries, collected from hypothetical tasks without the annotators' initiative. To bridge this gap, we propose a high-quality, personalized, manually annotated abstractive summarization dataset called PersonalSum. This dataset is the first to investigate whether the focus of public readers differs from the generic summaries generated by LLMs. It includes user profiles, personalized summaries accompanied by source sentences from given articles, and machine-generated generic summaries along with their sources. We investigate several personal signals - entities/topics, plot, and structure of articles - that may affect the generation of personalized summaries using LLMs in a few-shot in-context learning scenario. Our preliminary results and analysis indicate that entities/topics are merely one of the key factors that impact the diverse preferences of users, and personalized summarization remains a significant challenge for existing LLMs.