Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation
作者: Yuyang Ye, Zhi Zheng, Yishan Shen, Tianshu Wang, Hengruo Zhang, Peijun Zhu, Runlong Yu, Kai Zhang, Hui Xiong
分类: cs.IR, cs.AI
发布日期: 2024-08-19 (更新: 2025-01-13)
💡 一句话要点
提出MLLM-MSR模型,利用多模态大语言模型增强多模态序列推荐效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态推荐 大语言模型 序列推荐 用户偏好建模 图像特征提取
📋 核心要点
- 现有基于LLM的推荐方法主要依赖文本模态信息,无法有效处理多模态推荐系统中图像、文本等多种模态的数据融合。
- MLLM-MSR模型通过两阶段用户偏好总结方法,利用MLLM提取图像特征并转换为文本,再用LLM捕获用户偏好的动态变化。
- 实验结果表明,MLLM-MSR模型在多个数据集上表现出色,能够有效捕获和适应用户偏好的动态变化。
📝 摘要(中文)
本文提出了一种基于多模态大语言模型增强的多模态序列推荐模型(MLLM-MSR)。现有研究主要集中于将用户行为日志转换为文本提示,并利用提示调优等技术使大语言模型(LLM)用于推荐任务。然而,多模态推荐系统集成了图像、文本等多种模态的数据,这给现有的基于LLM的推荐范式带来了新的挑战。虽然已经出现了能够处理多模态输入的多模态大语言模型(MLLM),但如何使MLLM具备多模态推荐能力仍有待探索。MLLM-MSR模型设计了一个两阶段的用户偏好总结方法,首先利用基于MLLM的物品总结器提取图像特征并将其转换为文本,然后采用基于LLM的用户总结器来捕获用户偏好的动态变化。最后,通过监督微调(SFT)技术对基于MLLM的推荐器进行微调,使其能够用于多模态推荐任务。在多个数据集上的大量评估验证了MLLM-MSR的有效性,展示了其捕获和适应用户偏好演变动态的卓越能力。
🔬 方法详解
问题定义:现有的基于大语言模型(LLM)的推荐系统主要集中于文本模态,无法有效利用多模态信息(如图像)。多模态推荐系统需要融合图像、文本等多种模态的数据,这给现有的LLM推荐范式带来了挑战。此外,如何有效地利用多模态大语言模型(MLLM)进行多模态推荐仍然是一个未被充分探索的问题。
核心思路:本文的核心思路是利用MLLM提取多模态特征,并将其融入到序列推荐模型中。具体来说,首先利用MLLM将图像信息转换为文本描述,然后结合用户的历史交互序列,利用LLM对用户偏好进行建模。通过这种方式,模型可以同时利用视觉信息和文本信息,从而更准确地预测用户的下一个行为。
技术框架:MLLM-MSR模型主要包含三个模块:1) 基于MLLM的物品总结器(Item Summarizer):用于提取物品的图像特征,并将其转换为文本描述。2) 基于LLM的用户总结器(User Summarizer):用于根据用户的历史交互序列,总结用户的偏好。3) 基于MLLM的推荐器(Recommender):用于根据物品总结器和用户总结器的输出,预测用户下一个可能交互的物品。整个流程是,给定一个物品,物品总结器提取其图像特征并转换为文本,然后用户总结器根据用户的历史交互序列和物品的文本描述,总结用户的偏好,最后推荐器根据用户的偏好,预测用户下一个可能交互的物品。
关键创新:本文的关键创新在于提出了一个两阶段的用户偏好总结方法,该方法能够有效地利用MLLM提取图像特征,并将其融入到用户偏好建模中。此外,本文还提出了一个基于MLLM的推荐器,该推荐器能够同时利用视觉信息和文本信息,从而更准确地预测用户的行为。与现有方法相比,MLLM-MSR模型能够更好地利用多模态信息,从而提高推荐的准确性。
关键设计:物品总结器使用预训练的MLLM模型,通过微调使其能够更好地提取物品的图像特征。用户总结器使用循环神经网络(RNN)或Transformer模型,用于捕获用户偏好的动态变化。推荐器使用交叉注意力机制,将用户的偏好和物品的特征进行融合。损失函数采用交叉熵损失函数,用于优化模型的参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MLLM-MSR模型在多个数据集上取得了显著的性能提升。与现有的基于文本的推荐模型相比,MLLM-MSR模型能够更好地利用图像信息,从而提高推荐的准确性。具体的性能数据在论文中进行了详细的展示,证明了MLLM-MSR模型的有效性。
🎯 应用场景
该研究成果可应用于电商推荐、视频推荐、社交媒体推荐等领域。通过融合图像、文本等多种模态的信息,可以更准确地理解用户的偏好,从而提供更个性化的推荐服务。未来,该方法还可以扩展到其他模态的数据,如音频、视频等,从而构建更加全面的多模态推荐系统。
📄 摘要(原文)
Recent advances in Large Language Models (LLMs) have demonstrated significant potential in the field of Recommendation Systems (RSs). Most existing studies have focused on converting user behavior logs into textual prompts and leveraging techniques such as prompt tuning to enable LLMs for recommendation tasks. Meanwhile, research interest has recently grown in multimodal recommendation systems that integrate data from images, text, and other sources using modality fusion techniques. This introduces new challenges to the existing LLM-based recommendation paradigm which relies solely on text modality information. Moreover, although Multimodal Large Language Models (MLLMs) capable of processing multi-modal inputs have emerged, how to equip MLLMs with multi-modal recommendation capabilities remains largely unexplored. To this end, in this paper, we propose the Multimodal Large Language Model-enhanced Multimodaln Sequential Recommendation (MLLM-MSR) model. To capture the dynamic user preference, we design a two-stage user preference summarization method. Specifically, we first utilize an MLLM-based item-summarizer to extract image feature given an item and convert the image into text. Then, we employ a recurrent user preference summarization generation paradigm to capture the dynamic changes in user preferences based on an LLM-based user-summarizer. Finally, to enable the MLLM for multi-modal recommendation task, we propose to fine-tune a MLLM-based recommender using Supervised Fine-Tuning (SFT) techniques. Extensive evaluations across various datasets validate the effectiveness of MLLM-MSR, showcasing its superior ability to capture and adapt to the evolving dynamics of user preferences.