Image Score: Learning and Evaluating Human Preferences for Mercari Search

作者: Chingis Oinar, Miao Cao, Shanshan Fu

分类: cs.CV

发布日期: 2024-08-21

💡 一句话要点

利用LLM和链式思考(CoT)为Mercari电商平台学习和评估图像质量偏好

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像质量评估 大型语言模型 链式思考 电商平台 用户偏好

📋 核心要点

传统图像质量评估方法依赖大量人工标注数据，成本高昂且难以解释，无法有效利用电商平台丰富的隐式反馈数据。
利用LLM和CoT技术，生成与人类行为相关的图像美学标签，降低标注成本，提高图像质量评估的可解释性。
在线实验表明，该方法在Mercari Web平台上实现了显著的销售额增长，验证了LLM标注图像质量的有效性。

📝 摘要（中文）

本文提出了一种利用大型语言模型（LLM）驱动的、经济高效的方法，用于评估和预测电商环境中的图像质量，特别是在Mercari平台上。由于隐式反馈与图像质量评估等任务的相关性并不直接，且深度学习模型对标注数据的需求巨大，因此本文探索了利用LLM进行数据标注的方法。通过链式思考（CoT）技术，LLM能够生成与电商场景中人类行为高度相关的图像美学标签。相比于人工标注，该方法更具成本效益，并显著提高了深度图像质量评估的可解释性，这对于优化Mercari的客户旅程至关重要。在线实验结果表明，该方法显著提升了Web平台的销售额。

🔬 方法详解

问题定义：Mercari电商平台需要评估商品图片的质量，以提升用户体验和销售额。传统方法依赖人工标注，成本高昂且难以规模化。隐式反馈数据（如点击率、购买率）与图像质量的关联性不直接，难以有效利用。现有深度学习模型对高质量标注数据的需求量大，获取成本高。

核心思路：利用大型语言模型（LLM）的强大推理能力，通过链式思考（Chain-of-Thought, CoT）技术，模拟人类的思考过程，将图像质量评估分解为多个步骤，从而生成更准确、更具解释性的图像美学标签。这种方法旨在降低标注成本，并提高图像质量评估的可解释性。

技术框架：该方法主要包含以下几个阶段：1) 图像输入：将商品图像输入系统。2) LLM标注：利用LLM和CoT技术，生成图像美学标签。CoT提示词的设计至关重要，引导LLM逐步分析图像的各个方面（例如清晰度、构图、光照等），并给出相应的评分和解释。3) 模型训练：使用LLM生成的标签训练深度学习模型，用于预测图像质量。4) 在线实验：将训练好的模型部署到Mercari Web平台，进行A/B测试，评估其对用户行为和销售额的影响。

关键创新：该方法的核心创新在于利用LLM和CoT技术进行图像质量评估，替代了传统的人工标注。与现有方法相比，该方法具有以下优势：1) 成本效益：LLM标注的成本远低于人工标注。2) 可解释性：CoT技术使得LLM的推理过程更加透明，提高了图像质量评估的可解释性。3) 可扩展性：LLM可以轻松应用于大规模数据集，实现图像质量评估的自动化。

关键设计：CoT提示词的设计是关键。需要精心设计提示词，引导LLM从多个角度分析图像，并给出合理的评分和解释。例如，提示词可以包含以下问题：图像是否清晰？构图是否合理？光照是否合适？是否存在遮挡或干扰因素？LLM的输出可以包括图像的整体评分，以及对各个方面的详细评价。此外，损失函数的设计也需要考虑LLM标注的噪声，例如可以使用鲁棒的损失函数来降低噪声的影响。

🖼️ 关键图片

📊 实验亮点

在线实验结果表明，使用LLM生成的标签训练的图像质量评估模型，在Mercari Web平台上实现了显著的销售额增长。具体而言，与基线模型相比，该方法在销售额方面取得了显著提升，验证了LLM标注图像质量的有效性。该结果表明，利用LLM进行数据标注是一种经济高效且具有潜力的方法。

🎯 应用场景

该研究成果可广泛应用于电商、社交媒体、图像搜索等领域，用于提升图像质量评估的效率和准确性。通过优化图像排序、推荐和展示，可以改善用户体验，提高用户参与度和转化率。未来，该方法可以扩展到其他多模态任务，例如视频质量评估、文本情感分析等。

📄 摘要（原文）

Mercari is the largest C2C e-commerce marketplace in Japan, having more than 20 million active monthly users. Search being the fundamental way to discover desired items, we have always had a substantial amount of data with implicit feedback. Although we actively take advantage of that to provide the best service for our users, the correlation of implicit feedback for such tasks as image quality assessment is not trivial. Many traditional lines of research in Machine Learning (ML) are similarly motivated by the insatiable appetite of Deep Learning (DL) models for well-labelled training data. Weak supervision is about leveraging higher-level and/or noisier supervision over unlabeled data. Large Language Models (LLMs) are being actively studied and used for data labelling tasks. We present how we leverage a Chain-of-Thought (CoT) to enable LLM to produce image aesthetics labels that correlate well with human behavior in e-commerce settings. Leveraging LLMs is more cost-effective compared to explicit human judgment, while significantly improving the explainability of deep image quality evaluation which is highly important for customer journey optimization at Mercari. We propose a cost-efficient LLM-driven approach for assessing and predicting image quality in e-commerce settings, which is very convenient for proof-of-concept testing. We show that our LLM-produced labels correlate with user behavior on Mercari. Finally, we show our results from an online experimentation, where we achieved a significant growth in sales on the web platform.

Image Score: Learning and Evaluating Human Preferences for Mercari Search

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理