Shopping MMLU: A Massive Multi-Task Online Shopping Benchmark for Large Language Models

作者: Yilun Jin, Zheng Li, Chenwei Zhang, Tianyu Cao, Yifan Gao, Pratik Jayarao, Mao Li, Xin Liu, Ritesh Sarkhel, Xianfeng Tang, Haodong Wang, Zhengyang Wang, Wenju Xu, Jingfeng Yang, Qingyu Yin, Xian Li, Priyanka Nigam, Yi Xu, Kai Chen, Qiang Yang, Meng Jiang, Bing Yin

分类: cs.LG, cs.AI

发布日期: 2024-10-28 (更新: 2024-10-31)

备注: NeurIPS 2024 Datasets and Benchmarks Track Accepted. Modified typos in Figure 9

🔗 代码/项目: GITHUB | PROJECT_PAGE

💡 一句话要点

提出Shopping MMLU：大规模多任务在线购物基准，评估LLM在电商场景的应用潜力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 在线购物 大型语言模型 多任务学习 基准测试 用户行为对齐 知识推理 概念理解

📋 核心要点

现有在线购物模型和基准测试通常针对特定任务，无法捕捉在线购物的全部复杂性，限制了LLM在该领域的应用。
Shopping MMLU旨在通过构建一个多样化的多任务基准，全面评估LLM在概念理解、知识推理、用户行为对齐和多语言能力等方面的能力。
通过对20多个LLM进行基准测试，Shopping MMLU揭示了构建基于LLM的通用购物助手的实践和前景，并举办了KDD Cup竞赛。

📝 摘要（中文）

在线购物是一个复杂的多任务、少样本学习问题，涉及范围广泛且不断发展的实体、关系和任务。然而，现有的模型和基准通常针对特定任务定制，无法充分捕捉在线购物的全部复杂性。大型语言模型（LLM）凭借其多任务和少样本学习能力，有潜力通过减少特定任务的工程工作量和提供交互式对话，深刻地改变在线购物。尽管潜力巨大，LLM在在线购物中面临着独特的挑战，例如领域特定的概念、隐性知识和异构的用户行为。受此潜力和挑战的驱动，我们提出了Shopping MMLU，这是一个源自真实亚马逊数据的多样化多任务在线购物基准。Shopping MMLU包含57个任务，涵盖概念理解、知识推理、用户行为对齐和多语言能力四个主要的购物技能，从而可以全面评估LLM作为通用购物助手的能力。我们使用Shopping MMLU对20多个现有的LLM进行了基准测试，并揭示了构建基于LLM的多功能购物助手的实践和前景的宝贵见解。Shopping MMLU可在https://github.com/KL4805/ShoppingMMLU公开访问。此外，我们还利用Shopping MMLU在KDD Cup 2024中举办了一场比赛，有500多个团队参加。获奖方案和相关研讨会可在我们的网站https://amazon-kddcup24.github.io/上找到。

🔬 方法详解

问题定义：现有在线购物模型和基准测试通常是为特定任务设计的，无法全面评估LLM在复杂在线购物场景中的能力。这导致LLM在处理领域特定概念、隐性知识和异构用户行为时面临挑战。现有的方法缺乏一个统一的、多任务的评估框架，难以推动LLM在电商领域的应用。

核心思路：Shopping MMLU的核心思路是构建一个大规模、多样化的多任务基准，涵盖在线购物的多个关键技能，包括概念理解、知识推理、用户行为对齐和多语言能力。通过这个基准，可以更全面地评估LLM作为通用购物助手的潜力，并促进相关研究。

技术框架：Shopping MMLU的技术框架主要包括以下几个部分：1) 数据收集：从真实的亚马逊数据中提取相关信息，构建数据集。2) 任务定义：定义57个任务，涵盖四个主要的购物技能。3) 基准测试：使用Shopping MMLU对20多个现有的LLM进行评估。4) 竞赛组织：在KDD Cup 2024中举办比赛，吸引研究人员参与。

关键创新：Shopping MMLU的关键创新在于其大规模、多样化和多任务的特性。与以往的单任务基准相比，Shopping MMLU能够更全面地评估LLM在在线购物场景中的能力。此外，Shopping MMLU还涵盖了用户行为对齐和多语言能力，使其更贴近真实的在线购物场景。

关键设计：Shopping MMLU的关键设计包括：1) 任务选择：选择涵盖在线购物关键技能的任务，例如概念理解、知识推理、用户行为对齐和多语言能力。2) 数据集构建：从真实的亚马逊数据中提取数据，保证数据集的真实性和多样性。3) 评估指标：使用合适的评估指标来衡量LLM在不同任务上的性能。4) 竞赛设计：设计具有挑战性和趣味性的竞赛任务，吸引研究人员参与。

🖼️ 关键图片

📊 实验亮点

Shopping MMLU对20多个LLM进行了基准测试，揭示了LLM在不同购物技能上的表现差异。实验结果表明，LLM在概念理解方面表现较好，但在知识推理和用户行为对齐方面仍有提升空间。此外，Shopping MMLU还被用于KDD Cup 2024竞赛，吸引了500多个团队参与，进一步验证了其价值。

🎯 应用场景

Shopping MMLU的研究成果可应用于构建更智能、更个性化的在线购物助手。这些助手可以帮助用户理解商品信息、进行知识推理、对齐用户行为偏好，并支持多语言交互。该基准的发布将促进LLM在电商领域的应用，提升用户购物体验，并推动相关技术的进步。

📄 摘要（原文）

Online shopping is a complex multi-task, few-shot learning problem with a wide and evolving range of entities, relations, and tasks. However, existing models and benchmarks are commonly tailored to specific tasks, falling short of capturing the full complexity of online shopping. Large Language Models (LLMs), with their multi-task and few-shot learning abilities, have the potential to profoundly transform online shopping by alleviating task-specific engineering efforts and by providing users with interactive conversations. Despite the potential, LLMs face unique challenges in online shopping, such as domain-specific concepts, implicit knowledge, and heterogeneous user behaviors. Motivated by the potential and challenges, we propose Shopping MMLU, a diverse multi-task online shopping benchmark derived from real-world Amazon data. Shopping MMLU consists of 57 tasks covering 4 major shopping skills: concept understanding, knowledge reasoning, user behavior alignment, and multi-linguality, and can thus comprehensively evaluate the abilities of LLMs as general shop assistants. With Shopping MMLU, we benchmark over 20 existing LLMs and uncover valuable insights about practices and prospects of building versatile LLM-based shop assistants. Shopping MMLU can be publicly accessed at https://github.com/KL4805/ShoppingMMLU. In addition, with Shopping MMLU, we host a competition in KDD Cup 2024 with over 500 participating teams. The winning solutions and the associated workshop can be accessed at our website https://amazon-kddcup24.github.io/.

Shopping MMLU: A Massive Multi-Task Online Shopping Benchmark for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理