ALF: Advertiser Large Foundation Model for Multi-Modal Advertiser Understanding

作者: Santosh Rajagopalan, Jonathan Vronsky, Songbai Yan, S. Alireza Golestaneh, Shubhra Chandra, Min Zhou

分类: cs.LG

发布日期: 2025-04-26 (更新: 2025-12-31)

备注: KDD 2026 ADS Track

DOI: 10.1145/3770854.3783927

💡 一句话要点

提出ALF：用于多模态广告主理解的广告主大型基础模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 广告主理解 Transformer模型 对比学习 欺诈检测 政策违规识别 在线广告 大型基础模型

📋 核心要点

现有方法难以有效整合多模态数据，从而限制了对广告主行为和意图的全面理解。
ALF模型通过对比学习和多任务优化，学习统一的广告主表征，融合内容和行为模式。
ALF在欺诈检测等任务上取得SOTA性能，并在实际部署中显著提升精度和召回率。

📝 摘要（中文）

本文介绍了一种名为ALF（Advertiser Large Foundation model）的多模态Transformer架构，用于理解广告主在文本、图像、视频和结构化数据等多种模态中的行为和意图。通过对比学习和多任务优化，ALF创建了统一的广告主表征，能够捕捉内容和行为模式。该模型在欺诈检测、政策违规识别和广告主相似度匹配等关键任务上取得了最先进的性能。在生产部署中，ALF展示了显著的实际影响，在精度和召回率方面均实现了同步提升，例如，在一项关键政策上的召回率提高了40多个百分点，在另一项政策上的精度提高到99.8%。该架构的有效性源于其多模态转换、样本间注意力机制、谱归一化投影和校准概率输出的创新组合。

🔬 方法详解

问题定义：论文旨在解决广告主理解问题，即如何从文本、图像、视频和结构化数据等多模态信息中准确理解广告主的行为和意图。现有方法难以有效整合这些异构数据，导致在欺诈检测、政策违规识别等任务中表现不佳。

核心思路：ALF的核心思路是利用大型Transformer模型，通过对比学习和多任务优化，学习一个统一的广告主表征。该表征能够同时捕捉广告主的内容信息和行为模式，从而实现更准确的广告主理解。这样设计的目的是为了克服传统方法中模态信息孤立和特征工程困难的问题。

技术框架：ALF的整体架构是一个多模态Transformer模型。它包含以下主要模块：1) 多模态输入编码器，用于将文本、图像、视频和结构化数据转换为统一的向量表示；2) Transformer编码器，用于学习模态间的交互和依赖关系；3) 对比学习模块，用于学习区分不同广告主的表征；4) 多任务优化模块，用于同时优化多个广告主理解任务，例如欺诈检测和政策违规识别。

关键创新：ALF最重要的技术创新点在于其多模态融合方式和对比学习策略。传统方法通常采用简单的特征拼接或加权融合，而ALF通过Transformer编码器学习模态间的复杂交互。此外，ALF采用对比学习，鼓励模型学习区分不同广告主的表征，从而提高模型的泛化能力。

关键设计：ALF的关键设计包括：1) 使用Transformer编码器进行多模态融合；2) 采用对比学习损失函数，鼓励模型学习区分不同广告主的表征；3) 使用谱归一化投影，提高模型的稳定性和泛化能力；4) 使用校准概率输出，提高模型的预测置信度。

🖼️ 关键图片

📊 实验亮点

ALF模型在欺诈检测、政策违规识别和广告主相似度匹配等任务上取得了最先进的性能。在生产部署中，ALF在一项关键政策上的召回率提高了40多个百分点，在另一项政策上的精度提高到99.8%。这些结果表明ALF具有显著的实际应用价值。

🎯 应用场景

ALF模型可广泛应用于在线广告平台，用于欺诈检测、政策违规识别、广告主相似度匹配、个性化广告推荐等。通过更准确地理解广告主行为和意图，可以提高广告平台的安全性、公平性和用户体验。未来，该模型还可以扩展到其他领域，例如金融风控、内容审核等。

📄 摘要（原文）

We present ALF (Advertiser Large Foundation model), a multi-modal transformer architecture for understanding advertiser behavior and intent across text, image, video, and structured data modalities. Through contrastive learning and multi-task optimization, ALF creates unified advertiser representations that capture both content and behavioral patterns. Our model achieves state-of-the-art performance on critical tasks including fraud detection, policy violation identification, and advertiser similarity matching. In production deployment, ALF demonstrates significant real-world impact by delivering simultaneous gains in both precision and recall, for instance boosting recall by over 40 percentage points on one critical policy and increasing precision to 99.8% on another. The architecture's effectiveness stems from its novel combination of multi-modal transformations, inter-sample attention mechanism, spectrally normalized projections, and calibrated probabilistic outputs.

ALF: Advertiser Large Foundation Model for Multi-Modal Advertiser Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理