Efficient and Effective Adaptation of Multimodal Foundation Models in Sequential Recommendation

作者: Junchen Fu, Xuri Ge, Xin Xin, Alexandros Karatzoglou, Ioannis Arapakis, Kaiwen Zheng, Yongxin Ni, Joemon M. Jose

分类: cs.IR, cs.CV

发布日期: 2024-11-05 (更新: 2025-09-12)

备注: Accepted by IEEE Transactions on Knowledge and Data Engineering (TKDE)

DOI: 10.1109/TKDE.2025.3608071

🔗 代码/项目: GITHUB

💡 一句话要点

提出IISAN-Versa框架，高效适配多模态基础模型于序列推荐，实现SOTA性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 序列推荐 多模态学习 参数高效微调 基础模型 跨模态融合

📋 核心要点

现有参数高效微调方法在适配多模态基础模型时，往往忽略GPU内存和训练速度。
IISAN-Versa采用解耦PEFT结构，结合模内和模间适配，兼容对称和非对称多模态基础模型。
实验表明，IISAN-Versa能有效适配大型文本编码器，并在Microlens基准测试中达到SOTA性能。

📝 摘要（中文）

多模态基础模型（MFMs）通过先进的表征学习彻底改变了序列推荐系统。虽然参数高效微调（PEFT）常用于适配这些模型，但研究通常优先考虑参数效率，而忽略了GPU内存和训练速度。为了解决这个问题，我们引入了IISAN框架，显著提高了效率。然而，IISAN仅限于对称MFM和相同的文本及图像编码器，限制了最先进的大型语言模型的使用。为了克服这一点，我们开发了IISAN-Versa，一种通用的即插即用架构，兼容对称和非对称MFM。IISAN-Versa采用解耦PEFT结构，并利用模内和模间适配。它通过分组层丢弃和维度变换对齐的简单而有效组合来有效处理不对称性。我们的研究表明，IISAN-Versa有效地适配大型文本编码器，并且我们进一步确定了一种缩放效应，即较大的编码器通常表现更好。IISAN-Versa还在我们定义的多模态场景中展示了强大的通用性，包括从图像和视频生成的原始标题和字幕。此外，IISAN-Versa在Microlens公共基准测试中实现了最先进的性能。我们在https://github.com/GAIR-Lab/IISAN发布了我们的代码。

🔬 方法详解

问题定义：现有序列推荐系统利用多模态基础模型时，参数高效微调方法虽然减少了参数量，但忽略了GPU内存占用和训练速度，导致效率低下。此外，之前的IISAN框架仅支持对称的多模态基础模型，限制了对更先进的大型语言模型的使用。

核心思路：IISAN-Versa的核心思路是设计一个通用的、即插即用的架构，能够高效地适配各种多模态基础模型，包括对称和非对称的结构。通过解耦PEFT结构，分别进行模内和模间适配，从而提高训练效率和模型性能。针对非对称模型，采用分组层丢弃和维度变换对齐来解决不同模态之间的差异。

技术框架：IISAN-Versa框架包含以下主要模块：1) 多模态基础模型：可以是任意对称或非对称的预训练模型，例如文本编码器和图像编码器。2) 解耦PEFT模块：分别对每个模态的编码器进行参数高效微调。3) 模内适配模块：在每个模态内部进行特征提取和表示学习。4) 模间适配模块：融合不同模态的特征，学习跨模态的交互信息。5) 分组层丢弃和维度变换对齐模块：用于处理非对称模型中不同模态之间的差异。

关键创新：IISAN-Versa的关键创新在于其通用性和高效性。它不仅能够处理对称的多模态基础模型，还能有效地适配非对称模型，例如使用大型语言模型作为文本编码器。通过解耦PEFT结构和模内/模间适配，显著提高了训练效率和模型性能。分组层丢弃和维度变换对齐的组合是一种简单而有效的处理非对称性的方法。

关键设计：在非对称模型中，分组层丢弃策略根据不同模态的重要性，选择性地丢弃部分层，以减少计算量和参数量。维度变换对齐模块通过线性变换将不同模态的特征映射到相同的维度空间，从而方便后续的模间融合。损失函数方面，可能采用了对比学习损失或交叉熵损失，以优化模型的表示学习能力。具体的参数设置和网络结构细节在论文中应该有更详细的描述（未知）。

🖼️ 关键图片

📊 实验亮点

IISAN-Versa在Microlens公共基准测试中取得了SOTA性能，证明了其有效性。实验还表明，更大的文本编码器通常表现更好，揭示了一种缩放效应。此外，IISAN-Versa在处理原始标题和字幕等真实场景数据时，也展现了强大的通用性。

🎯 应用场景

该研究成果可广泛应用于电商推荐、视频推荐、新闻推荐等领域。通过高效适配多模态基础模型，可以更好地理解用户兴趣，提升推荐系统的准确性和用户体验。未来，该方法有望应用于更复杂的跨模态任务，例如多模态对话系统和智能搜索。

📄 摘要（原文）

Multimodal foundation models (MFMs) have revolutionized sequential recommender systems through advanced representation learning. While Parameter-efficient Fine-tuning (PEFT) is commonly used to adapt these models, studies often prioritize parameter efficiency, neglecting GPU memory and training speed. To address this, we introduced the IISAN framework, significantly enhancing efficiency. However, IISAN was limited to symmetrical MFMs and identical text and image encoders, preventing the use of state-of-the-art Large Language Models. To overcome this, we developed IISAN-Versa, a versatile plug-and-play architecture compatible with both symmetrical and asymmetrical MFMs. IISAN-Versa employs a Decoupled PEFT structure and utilizes both intra- and inter-modal adaptation. It effectively handles asymmetry through a simple yet effective combination of group layer-dropping and dimension transformation alignment. Our research demonstrates that IISAN-Versa effectively adapts large text encoders, and we further identify a scaling effect where larger encoders generally perform better. IISAN-Versa also demonstrates strong versatility in our defined multimodal scenarios, which include raw titles and captions generated from images and videos. Additionally, IISAN-Versa achieved state-of-the-art performance on the Microlens public benchmark. We release our code at https://github.com/GAIR-Lab/IISAN.

Efficient and Effective Adaptation of Multimodal Foundation Models in Sequential Recommendation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理