What should I wear to a party in a Greek taverna? Evaluation for Conversational Agents in the Fashion Domain

📄 arXiv: 2408.08907v1 📥 PDF

作者: Antonis Maronikolakis, Ana Peleteiro Ramallo, Weiwei Cheng, Thomas Kober

分类: cs.IR, cs.AI, cs.CL, cs.HC

发布日期: 2024-08-13

备注: Accepted at KDD workshop on Evaluation and Trustworthiness of Generative AI Models


💡 一句话要点

构建多语言时尚对话数据集,评估LLM在电商场景下作为对话助手的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话系统 大型语言模型 时尚电商 多语言数据集 性能评估

📋 核心要点

  1. 现有对话系统在时尚电商领域缺乏高质量、多语言的评测数据集,难以有效评估LLM作为对话助手的性能。
  2. 论文构建了一个包含4000个对话的多语言数据集,用于评估LLM在时尚电商场景下作为对话助手的能力。
  3. 通过对一系列模型的评估,验证了数据集在满足业务需求和促进工具迭代开发方面的有效性。

📝 摘要(中文)

大型语言模型(LLM)有望彻底改变在线时尚零售领域,提升客户体验和时尚发现。基于LLM的对话代理通过与客户直接互动,以客户自己的方式表达需求,细化需求,并获得与其品味和意图相关的时尚和购物建议,从而引入了一种新的发现方式。对于电子商务中的许多任务,例如查找特定产品,对话代理需要将其与客户的交互转换为对不同后端系统的特定调用,例如,搜索系统以展示相关的产品集。因此,评估LLM执行与调用其他服务相关的这些任务的能力至关重要。然而,由于缺乏相关和高质量的数据集,这些评估通常很复杂,并且不能与其他业务需求无缝衔接。为此,我们创建了一个多语言评估数据集,其中包含大型电子商务时尚平台中客户和时尚助手之间的4000个对话,以衡量LLM作为客户和后端引擎之间的助手的能力。我们评估了一系列模型,展示了我们的数据集如何扩展到业务需求并促进工具的迭代开发。

🔬 方法详解

问题定义:现有时尚电商对话系统缺乏高质量的评测数据集,尤其是在多语言环境下。这使得评估大型语言模型(LLM)在充当客户和后端系统之间的助手方面的能力变得困难。现有评估方法复杂,且难以与实际业务需求对齐。

核心思路:论文的核心思路是构建一个高质量、多语言的对话数据集,该数据集模拟了客户与时尚助手之间的真实交互。通过该数据集,可以系统地评估LLM在理解客户意图、生成相关回复以及调用后端服务方面的能力。

技术框架:该研究构建了一个包含4000个对话的数据集,这些对话模拟了客户与时尚助手在大型电商平台上的交互。数据集涵盖多种语言,并包含各种时尚相关的查询和请求。研究团队使用该数据集评估了一系列LLM,以衡量它们在理解客户意图、生成相关回复以及调用后端服务方面的能力。

关键创新:该研究的关键创新在于构建了一个专门针对时尚电商领域的多语言对话数据集。该数据集不仅规模较大,而且质量较高,能够更真实地反映实际应用场景。此外,该研究还提供了一个评估LLM在时尚电商领域性能的基准。

关键设计:数据集包含客户的查询、助手的回复以及对后端服务的调用。为了保证数据集的质量,研究团队采用了严格的数据清洗和标注流程。此外,研究团队还设计了一系列评估指标,用于衡量LLM在理解客户意图、生成相关回复以及调用后端服务方面的性能。具体参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了一个包含4000个对话的多语言数据集,用于评估LLM在时尚电商场景下作为对话助手的性能。通过对一系列模型的评估,验证了数据集在满足业务需求和促进工具迭代开发方面的有效性。具体的性能数据和提升幅度在摘要中未明确给出,属于未知信息。

🎯 应用场景

该研究成果可应用于时尚电商领域的智能客服、个性化推荐、虚拟试衣等场景。通过提升对话系统的理解和生成能力,可以改善用户体验,提高销售转化率。未来,该数据集可以进一步扩展到其他电商领域,为构建更智能的对话系统提供支持。

📄 摘要(原文)

Large language models (LLMs) are poised to revolutionize the domain of online fashion retail, enhancing customer experience and discovery of fashion online. LLM-powered conversational agents introduce a new way of discovery by directly interacting with customers, enabling them to express in their own ways, refine their needs, obtain fashion and shopping advice that is relevant to their taste and intent. For many tasks in e-commerce, such as finding a specific product, conversational agents need to convert their interactions with a customer to a specific call to different backend systems, e.g., a search system to showcase a relevant set of products. Therefore, evaluating the capabilities of LLMs to perform those tasks related to calling other services is vital. However, those evaluations are generally complex, due to the lack of relevant and high quality datasets, and do not align seamlessly with business needs, amongst others. To this end, we created a multilingual evaluation dataset of 4k conversations between customers and a fashion assistant in a large e-commerce fashion platform to measure the capabilities of LLMs to serve as an assistant between customers and a backend engine. We evaluate a range of models, showcasing how our dataset scales to business needs and facilitates iterative development of tools.