Winning Amazon KDD Cup'24

📄 arXiv: 2408.04658v1 📥 PDF

作者: Chris Deotte, Ivan Sorokin, Ahmet Erdem, Benedikt Schifferer, Gilberto Titericz, Simon Jegou

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-08-05


💡 一句话要点

针对在线购物场景,提出基于Qwen2-72B微调和数据增强的LLM智能助手方案,赢得Amazon KDD Cup'24全部任务冠军。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 在线购物助手 数据增强 模型微调 模型集成 Qwen2-72B KDD Cup 智能问答

📋 核心要点

  1. 在线购物助手面临数据稀缺和任务多样性的挑战,现有方法难以兼顾效率与准确性。
  2. 该方案核心在于利用Qwen2-72B进行微调,结合数据增强和模型集成策略,提升模型在特定任务上的性能。
  3. 通过在Amazon KDD Cup'24比赛中取得全部赛道冠军,验证了该方案在实际应用中的有效性和优越性。

📝 摘要(中文)

本文描述了Amazon KDD Cup 2024 LLM多任务在线购物挑战赛的冠军解决方案,该挑战赛旨在构建一个有用的在线购物领域智能助手,回答相关问题。比赛包含57个不同的任务,涵盖5种任务类型(例如,多项选择)和4个不同的赛道(例如,多语言)。我们的解决方案是每个赛道使用一个模型。我们使用我们自己的训练数据集对Qwen2-72B-Instruct进行微调。由于比赛仅发布了96个示例问题,我们通过处理多个公共数据集或使用大型语言模型进行数据增强和合成数据生成,开发了自己的训练数据集。我们应用wise-ft来解决分布偏移问题,并在一个模型中集成多个LoRA适配器。我们采用Logits Processors来约束模型输出到任务相关的token上。在推理期间,我们使用AWQ 4-bit量化和vLLM来预测测试数据集,时间限制为20到140分钟,具体取决于赛道。我们的解决方案在每个赛道都获得了第一名,并且是Amazon KDD Cup 2024的总体第一名。

🔬 方法详解

问题定义:该论文旨在解决在线购物场景下,利用大型语言模型构建智能助手的问题。现有方法面临数据量不足,任务类型多样,以及不同赛道(如多语言)的分布差异等挑战,导致模型泛化能力受限,难以满足实际应用需求。

核心思路:核心思路是利用预训练的Qwen2-72B-Instruct模型作为基础,通过自建训练数据集进行微调,并采用数据增强、模型集成和输出约束等策略,提升模型在特定任务上的性能和鲁棒性。针对不同赛道,分别训练独立的模型,以适应各自的特点。

技术框架:整体框架包括数据准备、模型微调、模型集成和推理四个主要阶段。数据准备阶段,通过处理公共数据集和使用LLM生成合成数据,扩充训练数据集。模型微调阶段,使用自建数据集对Qwen2-72B-Instruct进行微调,并应用wise-ft解决分布偏移问题。模型集成阶段,将多个LoRA适配器集成到一个模型中,提升模型性能。推理阶段,使用AWQ 4-bit量化和vLLM加速推理过程。

关键创新:关键创新点在于结合了多种技术手段,包括数据增强、模型集成和输出约束,以提升模型在特定任务上的性能。特别是,利用LLM进行数据增强和合成数据生成,有效解决了数据稀缺问题。此外,应用wise-ft解决分布偏移问题,提升了模型的鲁棒性。

关键设计:在数据增强方面,具体的数据增强策略和LLM的选择未知。在模型集成方面,LoRA适配器的数量和集成方式未知。在输出约束方面,Logits Processors的具体实现方式未知。推理阶段,AWQ 4-bit量化和vLLM的具体配置参数未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方案在Amazon KDD Cup'24比赛中,在所有五个赛道均获得第一名,证明了其在实际应用中的有效性和优越性。具体的性能数据和提升幅度未知,但整体表现优于其他参赛方案。

🎯 应用场景

该研究成果可应用于构建智能在线购物助手,提升用户购物体验。例如,自动回答用户关于商品属性、使用方法、售后服务等方面的问题,提供个性化推荐,以及支持多语言环境下的购物咨询。未来可扩展到其他电商平台和垂直领域,具有广阔的应用前景。

📄 摘要(原文)

This paper describes the winning solution of all 5 tasks for the Amazon KDD Cup 2024 Multi Task Online Shopping Challenge for LLMs. The challenge was to build a useful assistant, answering questions in the domain of online shopping. The competition contained 57 diverse tasks, covering 5 different task types (e.g. multiple choice) and across 4 different tracks (e.g. multi-lingual). Our solution is a single model per track. We fine-tune Qwen2-72B-Instruct on our own training dataset. As the competition released only 96 example questions, we developed our own training dataset by processing multiple public datasets or using Large Language Models for data augmentation and synthetic data generation. We apply wise-ft to account for distribution shifts and ensemble multiple LoRA adapters in one model. We employed Logits Processors to constrain the model output on relevant tokens for the tasks. AWQ 4-bit Quantization and vLLM are used during inference to predict the test dataset in the time constraints of 20 to 140 minutes depending on the track. Our solution achieved the first place in each individual track and is the first place overall of Amazons KDD Cup 2024.