Personalized Image Generation with Large Multimodal Models

📄 arXiv: 2410.14170v2 📥 PDF

作者: Yiyan Xu, Wenjie Wang, Yang Zhang, Biao Tang, Peng Yan, Fuli Feng, Xiangnan He

分类: cs.IR, cs.AI, cs.MM

发布日期: 2024-10-18 (更新: 2025-02-02)

备注: Accepted for publication in WWW'25

DOI: 10.1145/3696410.3714843


💡 一句话要点

提出Pigeon框架,利用大型多模态模型实现个性化图像生成,解决用户视觉偏好捕捉难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个性化图像生成 多模态学习 用户偏好建模 大型多模态模型 偏好对齐 对比学习 掩码图像建模

📋 核心要点

  1. 现有个性化内容系统受限于内容多样性,难以满足用户需求,而个性化图像生成面临用户偏好捕捉和数据稀缺的挑战。
  2. Pigeon框架利用大型多模态模型,通过专用模块从用户历史和多模态指令中学习视觉偏好,实现个性化图像生成。
  3. 通过掩码偏好重建和成对偏好对齐的两阶段方案,Pigeon缓解了数据稀缺问题,并在贴纸和电影海报生成任务上表现出色。

📝 摘要(中文)

个性化内容过滤(如推荐系统)已成为缓解信息过载的关键基础设施。然而,这些系统仅过滤现有内容,受限于内容多样性,难以满足用户多样化的内容需求。为了解决这一限制,个性化内容生成已成为一个有前景的方向,具有广泛的应用。然而,现有研究主要集中在个性化文本生成上,对个性化图像生成的关注相对较少。个性化图像生成方面的工作在从嘈杂的用户交互图像和复杂的多模态指令中准确捕捉用户的视觉偏好和需求方面面临挑战。更糟糕的是,缺乏用于训练个性化图像生成模型的监督数据。为了克服这些挑战,我们提出了一个名为Pigeon的个性化图像生成框架,该框架采用具有三个专用模块的大型多模态模型,以从嘈杂的用户历史和多模态指令中捕获用户的视觉偏好和需求。为了缓解数据稀缺问题,我们引入了一个两阶段的偏好对齐方案,包括掩码偏好重建和成对偏好对齐,以使Pigeon与个性化图像生成任务对齐。我们将Pigeon应用于个性化贴纸和电影海报生成,大量的定量结果和人工评估突出了其优于各种生成基线。

🔬 方法详解

问题定义:论文旨在解决个性化图像生成问题,现有方法难以从用户交互历史(通常是嘈杂的图像)和复杂的多模态指令中准确捕捉用户的视觉偏好和需求。此外,缺乏高质量的监督数据也是一个关键痛点,限制了个性化图像生成模型的发展。

核心思路:论文的核心思路是利用大型多模态模型强大的表征学习能力,结合专门设计的模块来提取和对齐用户的视觉偏好。通过两阶段的偏好对齐方案,缓解数据稀缺问题,从而实现更准确的个性化图像生成。这种设计旨在克服现有方法在处理噪声数据和缺乏监督信号方面的局限性。

技术框架:Pigeon框架包含三个主要模块。首先,使用大型多模态模型作为基础,例如预训练的视觉-语言模型。其次,设计了专门的偏好提取模块,用于从用户的历史交互数据(例如,用户点击过的图像)中提取视觉偏好。第三,设计了偏好对齐模块,将提取的视觉偏好与多模态指令(例如,文本描述)对齐,从而指导图像生成过程。整体流程是:输入用户历史和多模态指令 -> 偏好提取 -> 偏好对齐 -> 图像生成。

关键创新:论文的关键创新在于两阶段的偏好对齐方案。第一阶段是掩码偏好重建,通过掩盖部分用户历史图像,让模型学习重建被掩盖的部分,从而提高模型对用户偏好的理解能力。第二阶段是成对偏好对齐,通过比较不同图像对的偏好程度,让模型学习区分用户更喜欢的图像,从而提高生成图像的个性化程度。这种两阶段方案有效地利用了无监督数据,缓解了数据稀缺问题。

关键设计:具体的技术细节包括:使用Transformer结构来构建偏好提取模块和偏好对齐模块;采用对比学习损失函数来优化偏好对齐过程,鼓励模型学习区分用户喜欢的图像和不喜欢的图像;使用掩码图像建模(Masked Image Modeling)技术来实现掩码偏好重建;在生成图像时,使用条件生成模型,例如GAN或扩散模型,将对齐后的用户偏好作为条件输入。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Pigeon框架在个性化贴纸和电影海报生成任务上显著优于各种生成基线。定量指标和人工评估均表明,Pigeon生成的图像更符合用户的视觉偏好,具有更高的质量和多样性。具体的性能数据(例如,FID分数、用户满意度评分)在论文中进行了详细展示。

🎯 应用场景

该研究成果可广泛应用于个性化内容创作领域,例如个性化贴纸生成、电影海报生成、服装设计、室内设计等。通过理解用户的视觉偏好,可以生成更符合用户需求的图像内容,提升用户体验和满意度。未来,该技术还可应用于虚拟现实、增强现实等领域,为用户提供更加个性化的沉浸式体验。

📄 摘要(原文)

Personalized content filtering, such as recommender systems, has become a critical infrastructure to alleviate information overload. However, these systems merely filter existing content and are constrained by its limited diversity, making it difficult to meet users' varied content needs. To address this limitation, personalized content generation has emerged as a promising direction with broad applications. Nevertheless, most existing research focuses on personalized text generation, with relatively little attention given to personalized image generation. The limited work in personalized image generation faces challenges in accurately capturing users' visual preferences and needs from noisy user-interacted images and complex multimodal instructions. Worse still, there is a lack of supervised data for training personalized image generation models. To overcome the challenges, we propose a Personalized Image Generation Framework named Pigeon, which adopts exceptional large multimodal models with three dedicated modules to capture users' visual preferences and needs from noisy user history and multimodal instructions. To alleviate the data scarcity, we introduce a two-stage preference alignment scheme, comprising masked preference reconstruction and pairwise preference alignment, to align Pigeon with the personalized image generation task. We apply Pigeon to personalized sticker and movie poster generation, where extensive quantitative results and human evaluation highlight its superiority over various generative baselines.