ASR-enhanced Multimodal Representation Learning for Cross-Domain Product Retrieval
作者: Ruixiang Zhao, Jian Jia, Yan Li, Xuehan Bai, Quan Chen, Han Li, Peng Jiang, Xirong Li
分类: cs.MM, cs.AI, cs.CV
发布日期: 2024-08-06 (更新: 2025-06-24)
备注: accepted for publication as a REGULAR paper in the IEEE Transactions on Multimedia
💡 一句话要点
提出AMPere模型,利用LLM增强的ASR文本进行跨域产品检索。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态融合 跨域检索 产品表示学习 自动语音识别 大型语言模型 文本摘要 电商 信息检索
📋 核心要点
- 现有方法难以有效处理电商场景下产品内部差异大和产品间相似度高的问题,视觉信息不足。
- AMPere模型利用LLM对ASR文本进行摘要,提取产品特定信息,降低噪声干扰,提升表示质量。
- 实验表明,AMPere模型在跨域产品检索任务上表现出色,验证了其统一多模态产品表示的有效性。
📝 摘要(中文)
电子商务日益多媒体化,产品以图像、短视频或直播促销等方式在广泛领域展示。统一且向量化的跨域产品表示至关重要。由于广泛领域场景中产品内部差异大、产品间相似度高,仅使用视觉表示是不够的。虽然从短视频或直播视频中获得的自动语音识别(ASR)文本易于获取,但如何对过度嘈杂的文本进行去噪以进行多模态表示学习在很大程度上尚未触及。我们提出了ASR增强的多模态产品表示学习(AMPere)。为了从原始ASR文本中提取产品特定信息,AMPere使用了一种易于实现的基于LLM的ASR文本摘要器。然后,将LLM总结的文本与视觉数据一起输入到多分支网络中,以生成紧凑的多模态嵌入。在大型三域数据集上进行的大量实验验证了AMPere在获得统一的多模态产品表示方面的有效性,该表示明显提高了跨域产品检索。
🔬 方法详解
问题定义:论文旨在解决跨域电商场景下,由于产品内部差异大和产品间相似度高,导致仅使用视觉信息进行产品检索效果不佳的问题。现有方法无法有效利用视频中的语音信息,因为ASR文本通常包含大量噪声,直接使用会降低表示学习的效果。
核心思路:论文的核心思路是利用大型语言模型(LLM)对ASR文本进行摘要,从而提取出与产品相关的关键信息,降低噪声干扰。通过将LLM摘要后的文本与视觉信息融合,可以获得更鲁棒和准确的多模态产品表示。
技术框架:AMPere模型包含以下几个主要模块:1) ASR文本获取模块,从视频中提取原始ASR文本;2) LLM文本摘要模块,使用LLM对原始ASR文本进行摘要,提取产品相关信息;3) 多分支网络,分别处理视觉数据和LLM摘要后的文本数据,提取特征;4) 特征融合模块,将视觉特征和文本特征进行融合,生成最终的多模态产品表示。
关键创新:该论文的关键创新在于利用LLM对ASR文本进行摘要,从而有效地去除了噪声,提取了产品相关的关键信息。这种方法能够显著提高多模态表示学习的效果,尤其是在噪声较大的电商场景下。
关键设计:论文使用了一个易于实现的基于LLM的ASR文本摘要器。具体来说,可以使用预训练的LLM,如BERT或GPT,并针对产品描述任务进行微调。损失函数方面,可以使用对比学习损失,例如InfoNCE,来学习更具区分性的多模态嵌入。网络结构方面,可以使用Transformer或CNN等模型来提取视觉和文本特征。
🖼️ 关键图片
📊 实验亮点
论文在大型三域数据集上进行了实验,验证了AMPere模型的有效性。实验结果表明,AMPere模型能够显著提高跨域产品检索的准确率,相较于基线方法,性能提升明显。具体的性能数据和提升幅度在论文中进行了详细展示。
🎯 应用场景
该研究成果可广泛应用于电商平台的商品检索、推荐系统和广告投放等领域。通过更准确地理解产品的多模态信息,可以提升用户搜索体验,提高商品点击率和转化率,并实现更精准的广告投放,具有重要的商业价值和应用前景。
📄 摘要(原文)
E-commerce is increasingly multimedia-enriched, with products exhibited in a broad-domain manner as images, short videos, or live stream promotions. A unified and vectorized cross-domain production representation is essential. Due to large intra-product variance and high inter-product similarity in the broad-domain scenario, a visual-only representation is inadequate. While Automatic Speech Recognition (ASR) text derived from the short or live-stream videos is readily accessible, how to de-noise the excessively noisy text for multimodal representation learning is mostly untouched. We propose ASR-enhanced Multimodal Product Representation Learning (AMPere). In order to extract product-specific information from the raw ASR text, AMPere uses an easy-to-implement LLM-based ASR text summarizer. The LLM-summarized text, together with visual data, is then fed into a multi-branch network to generate compact multimodal embeddings. Extensive experiments on a large-scale tri-domain dataset verify the effectiveness of AMPere in obtaining a unified multimodal product representation that clearly improves cross-domain product retrieval.