A Multimodal, Multitask System for Generating E Commerce Text Listings from Images

📄 arXiv: 2510.21835v1 📥 PDF

作者: Nayan Kumar Singh

分类: cs.LG, cs.AI, cs.CL, cs.CV

发布日期: 2025-10-22

备注: 24 pages, 10 figures, 11 tables. Code can be found at: https://github.com/SinghNayanKumar/multimodal-product-lister/


💡 一句话要点

提出一种多模态多任务系统,用于从图像生成电商文本列表,显著降低幻觉率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 多任务学习 电商文本生成 视觉到语言 事实一致性 分层生成 属性预测 图像描述

📋 核心要点

  1. 现有视觉到语言模型在电商文本生成中存在事实性幻觉问题,且单任务模型效率低,忽略了特征间的关联。
  2. 提出一种多任务学习框架,联合训练属性预测和价格回归,并引入分层生成过程,将预测属性嵌入提示中。
  3. 实验表明,该方法在属性预测和价格回归上均优于单任务模型,且显著降低了文本生成中的事实性幻觉。

📝 摘要(中文)

零售商手动生成引人注目的描述和名称既费力又缓慢。虽然生成式AI以视觉到语言模型(VLM)的形式提供了一种自动化解决方案,但当前的VLM容易出现事实性“幻觉”。孤立的单任务模型不仅效率低下,而且无法捕捉特征之间相互依赖的关系。为了应对这些挑战,我们提出了一种端到端的多任务系统,该系统从单个图像生成基于事实的文本列表。本研究的贡献是模型架构的两个提议。首先,应用多任务学习方法来微调视觉编码器,其中单个视觉骨干网络联合训练属性预测(如颜色、下摆和领口样式)和价格回归。其次,引入分层生成过程,其中模型自身预测的属性嵌入到提示中,并馈送到文本解码器,以提高事实一致性。实验表明了该架构的优越性。多任务处理方法优于独立的定价回归(R2值提高了3.6%)和属性分类(F1分数提高了6.6%)。至关重要的是,分层生成过程被证明非常有效,与非分层消融相比,事实幻觉率从12.7%降至7.1%,相对降低了44.5%。与类似大小的直接视觉到语言模型相比,分层方法还将自回归文本生成过程的延迟降低了3.5倍。一个小的不足是,该模型在ROUGE-L得分上比直接视觉到语言模型差3.5%。

🔬 方法详解

问题定义:论文旨在解决电商领域中,如何从商品图像自动生成高质量、信息准确的文本描述和名称的问题。现有方法,特别是直接的视觉到语言模型,容易产生与图像不符的“幻觉”内容,并且单任务模型无法有效利用图像中不同属性之间的关联性,导致生成文本的质量和效率受限。

核心思路:论文的核心思路是利用多任务学习和分层生成策略,提升生成文本的事实一致性和效率。多任务学习通过共享视觉特征提取器,同时预测多个属性(如颜色、款式、价格),从而增强模型对图像信息的理解。分层生成则将模型预测的属性信息作为提示,引导文本解码器生成更准确的描述。

技术框架:该系统包含一个视觉编码器和一个文本解码器。视觉编码器采用多任务学习方式,同时进行属性预测和价格回归。属性预测任务包括颜色、下摆、领口样式等分类任务,价格回归任务预测商品价格。文本解码器接收视觉编码器的输出和属性预测结果作为输入,生成最终的文本描述。整体流程是从图像提取视觉特征,预测属性,然后利用预测属性引导文本生成。

关键创新:该论文的关键创新在于:1) 提出了多任务学习框架,将属性预测和价格回归联合训练,提升了视觉特征的表达能力。2) 引入了分层生成过程,将模型自身预测的属性嵌入到提示中,显著降低了生成文本中的事实性幻觉。

关键设计:视觉编码器采用预训练的视觉模型(具体模型未知)进行微调。多任务学习的损失函数是属性分类交叉熵损失和价格回归的均方误差损失的加权和。分层生成过程中,属性预测结果被编码成特定的格式(具体格式未知),作为文本解码器的输入提示。文本解码器采用自回归的方式生成文本。

📊 实验亮点

实验结果表明,该多任务学习方法在价格回归(R2值提高3.6%)和属性分类(F1分数提高6.6%)上均优于单任务模型。更重要的是,分层生成过程将事实幻觉率从12.7%降低到7.1%,相对降低了44.5%。此外,分层方法还将自回归文本生成过程的延迟降低了3.5倍。但ROUGE-L得分略有下降(3.5%)。

🎯 应用场景

该研究成果可应用于电商平台,自动生成商品描述和名称,降低人工成本,提高商品上架效率。同时,该方法可以提升生成文本的质量和准确性,改善用户体验,并可能扩展到其他需要从图像生成文本描述的领域,如新闻报道、产品说明等。

📄 摘要(原文)

Manually generating catchy descriptions and names is labor intensive and a slow process for retailers. Although generative AI provides an automation solution in form of Vision to Language Models (VLM), the current VLMs are prone to factual "hallucinations". Siloed, single task models are not only inefficient but also fail to capture interdependent relationships between features. To address these challenges, we propose an end to end, multi task system that generates factually grounded textual listings from a single image. The contributions of this study are two proposals for the model architecture. First, application of multi task learning approach for fine tuning a vision encoder where a single vision backbone is jointly trained on attribute prediction such as color, hemline and neck style and price regression. Second, introduction of a hierarchical generation process where the model's own predicted attributes are embedded in a prompt and fed to the text decoder to improve factual consistency. The experiments demonstrate the superiority of this architecture. The multi tasking approach outperforms both the independent price regression, with a 3.6% better R2 Value and attribute classification, with a 6.6% improvement F1 score. Critically, the hierarchical generation process proves highly effective, slashing the factual hallucination rate from 12.7% to 7.1%, a 44.5% relative reduction, compared to a non hierarchical ablation. The hierarchical approach also reduces the latency of the autoregressive text generation process by a factor of 3.5 when compared to direct vision to language model of similar size. One minor caveat is that the model does perform 3.5% worse than direct vision-to-language model on ROUGE-L score.