News Recommendation with Category Description by a Large Language Model
作者: Yuki Yada, Hayato Yamana
分类: cs.CL, cs.AI, cs.IR, cs.LG
发布日期: 2024-05-13
备注: 5 pages, 5 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出一种基于大语言模型自动生成类别描述的新闻推荐方法,提升推荐效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 新闻推荐 大型语言模型 类别描述生成 内容理解 个性化推荐
📋 核心要点
- 现有新闻推荐方法依赖人工定义的类别信息,缺乏对类别深层语义的理解,限制了推荐效果。
- 利用大型语言模型自动生成新闻类别的描述信息,增强类别语义表示,无需人工干预和领域知识。
- 实验表明,该方法在MIND数据集上,相较于现有模型,AUC指标最高提升了5.8%,验证了方法的有效性。
📝 摘要(中文)
个性化新闻推荐对于在线新闻平台至关重要,它可以帮助用户从海量内容中发现符合兴趣的新闻文章。适当编码的内容特征,如文本、类别和图像,对于推荐至关重要。其中,新闻类别(如tv-golden-globe、finance-real-estate和news-politics)在理解新闻内容方面起着重要作用,这启发我们增强类别的描述。本文提出了一种新颖的方法,该方法使用大型语言模型(LLM)自动生成信息丰富的类别描述,无需人工干预或领域特定知识,并将它们作为附加信息整合到推荐模型中。在使用MIND数据集进行的综合实验评估中,与最先进的基于内容的推荐模型(包括NAML、NRMS和NPA)相比,我们的方法在AUC方面成功实现了最多5.8%的改进,这些模型未使用LLM生成的类别描述。这些结果验证了我们方法的有效性。代码可在https://github.com/yamanalab/gpt-augmented-news-recommendation获取。
🔬 方法详解
问题定义:现有新闻推荐系统依赖于预定义的类别标签,这些标签通常是简短的关键词,缺乏对新闻类别深层语义的表达。这导致推荐系统难以准确理解用户兴趣,从而影响推荐效果。此外,人工维护和更新类别描述成本高昂,难以适应快速变化的新闻内容。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大文本生成能力,自动为新闻类别生成更丰富、更具信息量的描述。通过将这些生成的描述融入到推荐模型中,可以增强模型对新闻内容的理解,从而提高推荐的准确性和相关性。这种方法无需人工干预,可以自动适应新闻内容的变化。
技术框架:该方法的技术框架主要包括两个阶段:1) 类别描述生成阶段:利用LLM(如GPT系列模型)根据新闻类别名称生成详细的描述文本。输入是新闻类别名称,输出是LLM生成的类别描述。2) 推荐模型融合阶段:将生成的类别描述作为附加信息,融入到现有的新闻推荐模型中。具体来说,可以将类别描述的文本表示与新闻的其他特征(如标题、内容)进行融合,共同输入到推荐模型中进行训练和预测。
关键创新:该方法最重要的技术创新点在于利用LLM自动生成新闻类别的描述信息,从而避免了人工标注的成本和局限性。与传统方法相比,该方法能够更充分地利用LLM的语义理解和文本生成能力,生成更具信息量和表达力的类别描述。
关键设计:在类别描述生成阶段,需要选择合适的LLM,并设计合适的prompt来引导LLM生成高质量的描述文本。可以尝试不同的prompt策略,例如提供类别名称的上下文信息,或者要求LLM生成特定风格的描述。在推荐模型融合阶段,需要选择合适的融合方法,例如将类别描述的文本表示与新闻的其他特征进行拼接或加权融合。此外,还需要调整推荐模型的参数,以适应新的输入特征。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在MIND数据集上取得了显著的性能提升。与不使用LLM生成类别描述的基线模型(包括NAML、NRMS和NPA)相比,该方法在AUC指标上最多提升了5.8%。这表明利用LLM生成的类别描述能够有效增强新闻推荐模型的性能。
🎯 应用场景
该研究成果可应用于各类在线新闻推荐平台,提升用户的新闻阅读体验。通过自动生成类别描述,可以降低人工维护成本,提高推荐系统的智能化水平。此外,该方法还可以扩展到其他内容推荐领域,例如商品推荐、视频推荐等,具有广泛的应用前景。
📄 摘要(原文)
Personalized news recommendations are essential for online news platforms to assist users in discovering news articles that match their interests from a vast amount of online content. Appropriately encoded content features, such as text, categories, and images, are essential for recommendations. Among these features, news categories, such as tv-golden-globe, finance-real-estate, and news-politics, play an important role in understanding news content, inspiring us to enhance the categories' descriptions. In this paper, we propose a novel method that automatically generates informative category descriptions using a large language model (LLM) without manual effort or domain-specific knowledge and incorporates them into recommendation models as additional information. In our comprehensive experimental evaluations using the MIND dataset, our method successfully achieved 5.8% improvement at most in AUC compared with baseline approaches without the LLM's generated category descriptions for the state-of-the-art content-based recommendation models including NAML, NRMS, and NPA. These results validate the effectiveness of our approach. The code is available at https://github.com/yamanalab/gpt-augmented-news-recommendation.