A Survey on Large Language Models in Multimodal Recommender Systems

📄 arXiv: 2505.09777v1 📥 PDF

作者: Alejo Lopez-Avila, Jinhua Du

分类: cs.IR, cs.CL

发布日期: 2025-05-14

备注: 30 pages, 6 figures


💡 一句话要点

综述:大型语言模型赋能多模态推荐系统,探索新型集成模式与技术挑战。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推荐系统 大型语言模型 提示学习 微调 数据适配 语义推理 上下文学习

📋 核心要点

  1. 传统多模态推荐系统难以有效融合异构数据,缺乏对用户和物品深层语义的理解,限制了推荐的准确性和个性化。
  2. 该综述深入研究了如何利用LLM的强大语义理解和生成能力,通过提示工程、微调等手段,提升多模态推荐系统的性能。
  3. 论文系统性地总结了LLM在多模态推荐中的应用,并提出了新的分类体系,为未来的研究方向提供了有价值的参考。

📝 摘要(中文)

多模态推荐系统(MRS)整合异构的用户和物品数据,例如文本、图像和结构化信息,以提高推荐性能。大型语言模型(LLM)的出现为MRS带来了新的机遇,通过实现语义推理、上下文学习和动态输入处理。与早期的预训练语言模型(PLM)相比,LLM提供了更大的灵活性和泛化能力,但也带来了与可扩展性和模型可访问性相关的挑战。本综述全面回顾了LLM和MRS交叉领域的最新工作,重点关注提示策略、微调方法和数据适配技术。我们提出了一个新的分类法来描述集成模式,识别来自相关推荐领域的可转移技术,概述了评估指标和数据集,并指出了可能的未来方向。我们的目标是阐明LLM在多模态推荐中新兴的角色,并支持这个快速发展领域的未来研究。

🔬 方法详解

问题定义:多模态推荐系统旨在利用用户和物品的多种模态信息(如文本、图像、结构化数据)来提升推荐效果。然而,现有方法通常难以有效融合这些异构数据,并且缺乏对用户和物品深层语义的理解能力。此外,早期预训练语言模型(PLM)的泛化能力有限,难以适应复杂的推荐场景。

核心思路:本综述的核心思路是探索如何利用大型语言模型(LLM)的强大语义理解和生成能力来解决多模态推荐系统中的挑战。LLM能够进行语义推理、上下文学习和动态输入处理,从而更好地理解用户和物品的特征,并生成更准确、个性化的推荐结果。

技术框架:该综述没有提出新的技术框架,而是对现有研究进行了系统性的梳理和分类。它主要关注以下几个方面:1) LLM在多模态推荐中的集成模式;2) 提示策略、微调方法和数据适配技术;3) 评估指标和数据集。通过对这些方面的分析,该综述旨在为未来的研究提供指导。

关键创新:该综述的主要创新在于提出了一个新的分类法来描述LLM在多模态推荐中的集成模式。这种分类法能够帮助研究人员更好地理解不同集成模式的优缺点,并选择合适的集成策略。此外,该综述还识别了来自相关推荐领域的可转移技术,为多模态推荐系统的发展提供了新的思路。

关键设计:该综述没有涉及具体的模型设计细节,而是侧重于对现有研究的总结和分析。它关注的重点包括:如何设计有效的提示策略来引导LLM进行推荐;如何通过微调LLM来适应特定的推荐任务;以及如何对多模态数据进行适配,以便LLM能够更好地利用这些数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该综述系统性地总结了LLM在多模态推荐中的应用,并提出了新的分类体系,为未来的研究方向提供了有价值的参考。它强调了LLM在语义理解和生成方面的优势,并指出了LLM在多模态推荐中面临的挑战,例如可扩展性和模型可访问性。该综述为研究人员提供了一个全面的视角,有助于推动多模态推荐系统的发展。

🎯 应用场景

该研究成果可广泛应用于电商、社交媒体、在线视频等领域,提升个性化推荐的准确性和用户体验。通过融合文本、图像等多种模态信息,LLM能够更全面地理解用户偏好,从而推荐更符合用户需求的产品或内容。未来,该技术有望应用于智能客服、虚拟助手等领域,实现更智能化的交互体验。

📄 摘要(原文)

Multimodal recommender systems (MRS) integrate heterogeneous user and item data, such as text, images, and structured information, to enhance recommendation performance. The emergence of large language models (LLMs) introduces new opportunities for MRS by enabling semantic reasoning, in-context learning, and dynamic input handling. Compared to earlier pre-trained language models (PLMs), LLMs offer greater flexibility and generalisation capabilities but also introduce challenges related to scalability and model accessibility. This survey presents a comprehensive review of recent work at the intersection of LLMs and MRS, focusing on prompting strategies, fine-tuning methods, and data adaptation techniques. We propose a novel taxonomy to characterise integration patterns, identify transferable techniques from related recommendation domains, provide an overview of evaluation metrics and datasets, and point to possible future directions. We aim to clarify the emerging role of LLMs in multimodal recommendation and support future research in this rapidly evolving field.