One Size, Many Fits: Aligning Diverse Group-Wise Click Preferences in Large-Scale Advertising Image Generation
作者: Shuo Lu, Haohan Wang, Wei Feng, Weizhen Wang, Shen Zhang, Yaoyu Li, Ao Ma, Zheng Zhang, Jingjing Lv, Junjie Shen, Ching Law, Bing Zhan, Yuan Xu, Huizai Yao, Yongcan Yu, Chenyang Si, Jian Liang
分类: cs.CV, cs.AI
发布日期: 2026-02-02
🔗 代码/项目: GITHUB
💡 一句话要点
提出OSMF框架,对齐大规模广告图像生成中不同用户群体的点击偏好。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 广告图像生成 用户群体偏好 多模态大语言模型 点击率预测 定向营销
📋 核心要点
- 现有广告图像生成方法忽略用户群体偏好差异,导致特定群体点击率低,定向营销效果受限。
- OSMF框架通过产品感知的自适应分组和群体感知多模态大语言模型,为不同群体生成定制广告图像。
- GAIP数据集包含60万个用户群体,实验表明OSMF框架在离线和在线环境中均达到最佳性能。
📝 摘要(中文)
广告图像生成越来越关注点击率(CTR)等在线指标,但现有方法采用“一刀切”策略,优化整体CTR,忽略了用户群体之间的偏好差异。这导致特定群体的效果欠佳,限制了定向营销的有效性。为了弥合这一差距,我们提出了“One Size, Many Fits”(OSMF),一个统一的框架,用于对齐大规模广告图像生成中不同的群体点击偏好。OSMF首先进行产品感知的自适应分组,根据用户属性和产品特征动态组织用户,并用丰富的集体偏好特征表示每个群体。在此基础上,偏好条件图像生成采用群体感知多模态大语言模型(G-MLLM)为每个群体生成定制图像。G-MLLM经过预训练,可以同时理解群体特征并生成广告图像。随后,我们使用提出的Group-DPO对G-MLLM进行微调,以实现群体偏好对齐,从而有效提高每个群体在生成图像上的CTR。为了进一步推进该领域,我们推出了分组广告图像偏好数据集(GAIP),这是第一个大规模的群体图像偏好公共数据集,包含来自4000万用户的约60万个群体。大量实验表明,我们的框架在离线和在线设置中均实现了最先进的性能。
🔬 方法详解
问题定义:现有广告图像生成方法通常采用“一刀切”的策略,即针对所有用户群体优化一个通用的模型,忽略了不同用户群体之间存在的偏好差异。这种方法会导致模型在某些特定用户群体上的表现不佳,无法实现精准的定向营销,从而降低广告的整体效果。现有方法缺乏对用户群体偏好差异的建模和利用,是其主要痛点。
核心思路:OSMF的核心思路是根据用户的属性和产品特征,将用户动态地划分为不同的群体,并为每个群体生成定制化的广告图像。通过对每个群体的偏好进行建模,并利用这些偏好信息来指导图像生成过程,从而实现更精准的广告投放,提高点击率。这种“量身定制”的策略能够更好地满足不同用户群体的需求,提升广告效果。
技术框架:OSMF框架主要包含以下几个模块:1) 产品感知的自适应分组:根据用户属性和产品特征,动态地将用户划分为不同的群体,并提取每个群体的集体偏好特征。2) 群体感知多模态大语言模型(G-MLLM):该模型经过预训练,能够同时理解群体特征和生成广告图像。3) Group-DPO微调:使用提出的Group-DPO算法对G-MLLM进行微调,以实现群体偏好对齐,提高每个群体在生成图像上的点击率。
关键创新:OSMF的关键创新在于:1) 提出了产品感知的自适应分组方法,能够动态地识别和建模用户群体的偏好差异。2) 设计了群体感知多模态大语言模型(G-MLLM),能够同时理解群体特征和生成广告图像。3) 提出了Group-DPO微调算法,能够有效地对齐群体偏好,提高点击率。4) 构建了大规模的群体广告图像偏好数据集(GAIP),为该领域的研究提供了数据支持。
关键设计:在产品感知的自适应分组模块中,使用了多种用户属性和产品特征,例如用户的年龄、性别、地理位置、购买历史等,以及产品的类别、价格、品牌等。G-MLLM模型采用了Transformer架构,并引入了群体特征作为输入。Group-DPO算法基于DPO算法,并针对群体偏好对齐进行了改进。GAIP数据集包含了约60万个用户群体,每个群体包含多个广告图像及其对应的点击率数据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OSMF框架在离线和在线环境中均取得了显著的性能提升。在离线实验中,OSMF框架在GAIP数据集上取得了state-of-the-art的性能。在线A/B测试表明,OSMF框架能够显著提高广告的点击率,相比于基线方法,点击率提升了约10%-20%。这些结果充分证明了OSMF框架的有效性和优越性。
🎯 应用场景
该研究成果可广泛应用于在线广告、电商推荐等领域。通过对用户群体偏好进行建模,可以为不同群体生成定制化的广告或推荐内容,提高点击率和转化率。该技术还有潜力应用于个性化内容生成、智能客服等领域,为用户提供更精准、更个性化的服务。未来,可以进一步探索如何利用更丰富的用户数据和更先进的深度学习技术,提升群体偏好建模的准确性和效率。
📄 摘要(原文)
Advertising image generation has increasingly focused on online metrics like Click-Through Rate (CTR), yet existing approaches adopt a ``one-size-fits-all" strategy that optimizes for overall CTR while neglecting preference diversity among user groups. This leads to suboptimal performance for specific groups, limiting targeted marketing effectiveness. To bridge this gap, we present \textit{One Size, Many Fits} (OSMF), a unified framework that aligns diverse group-wise click preferences in large-scale advertising image generation. OSMF begins with product-aware adaptive grouping, which dynamically organizes users based on their attributes and product characteristics, representing each group with rich collective preference features. Building on these groups, preference-conditioned image generation employs a Group-aware Multimodal Large Language Model (G-MLLM) to generate tailored images for each group. The G-MLLM is pre-trained to simultaneously comprehend group features and generate advertising images. Subsequently, we fine-tune the G-MLLM using our proposed Group-DPO for group-wise preference alignment, which effectively enhances each group's CTR on the generated images. To further advance this field, we introduce the Grouped Advertising Image Preference Dataset (GAIP), the first large-scale public dataset of group-wise image preferences, including around 600K groups built from 40M users. Extensive experiments demonstrate that our framework achieves the state-of-the-art performance in both offline and online settings. Our code and datasets will be released at https://github.com/JD-GenX/OSMF.