Enhancing E-commerce Product Title Translation with Retrieval-Augmented Generation and Large Language Models

📄 arXiv: 2409.12880v1 📥 PDF

作者: Bryan Zhang, Taichi Nakatani, Stephan Walter

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-09-19

备注: 6 Pages,In Proceedings of ACM CIKM Workshop on Data-Centric AI (CIKM DCAI 2024)


💡 一句话要点

提出基于检索增强生成(RAG)的方法,提升电商产品标题的跨语言翻译质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电商产品标题翻译 检索增强生成 大型语言模型 机器翻译 跨语言处理

📋 核心要点

  1. 产品标题短小、缺乏上下文和专业术语,使得直接使用LLM进行翻译面临挑战。
  2. 利用电商平台已有的双语产品信息,通过检索相似示例并融入LLM提示,增强翻译效果。
  3. 实验表明,该方法在LLM不擅长的语言对上,显著提升了产品标题翻译的chrF得分。

📝 摘要(中文)

电子商务平台需要准确的产品标题翻译以支持多语言的产品发现。多语言大型语言模型(LLM)在机器翻译任务中展现出潜力,能够一步到位地增强和翻译产品标题。然而,产品标题翻译不仅仅是语言转换,因为标题通常很短、缺乏上下文且包含专业术语。本研究提出了一种检索增强生成(RAG)方法,通过检索相似的双语示例,并将其作为少量样本提示,来增强基于LLM的产品标题翻译。实验结果表明,对于LLM熟练度有限的语言对,我们提出的RAG方法能够将产品标题翻译质量提高,chrF得分提升高达15.3%。

🔬 方法详解

问题定义:论文旨在解决电商场景下产品标题的跨语言翻译问题。现有方法,特别是直接使用大型语言模型(LLM)进行翻译,在产品标题这种短文本、缺乏上下文且包含大量专业术语的情况下,翻译质量难以保证。现有方法无法有效利用电商平台自身积累的大量双语产品信息。

核心思路:论文的核心思路是利用检索增强生成(RAG)框架,通过检索与待翻译产品标题相似的双语产品标题,并将这些相似示例作为few-shot prompt提供给LLM,从而增强LLM的翻译能力。这样做的目的是为LLM提供额外的上下文信息和领域知识,使其能够更准确地翻译产品标题。

技术框架:整体框架包含以下几个主要步骤:1) 检索:使用待翻译的产品标题作为query,在已有的双语产品标题数据库中检索相似的标题。相似度可以使用例如余弦相似度等方法进行计算。2) 构建Prompt:将检索到的相似双语标题对作为few-shot examples,构建成LLM的prompt。Prompt中包含源语言标题、目标语言标题以及待翻译的源语言标题。3) 生成:将构建好的prompt输入到LLM中,LLM生成目标语言的翻译结果。4) 后处理 (可选):对LLM的输出进行后处理,例如去除噪声、修正格式等。

关键创新:该方法最重要的创新在于将检索增强生成(RAG)框架应用于电商产品标题翻译任务。与直接使用LLM进行翻译相比,RAG方法能够有效利用已有的双语数据,为LLM提供更丰富的上下文信息和领域知识。此外,该方法无需对LLM进行额外的训练或微调,即可显著提升翻译质量。

关键设计:关键设计包括:1) 相似度度量:选择合适的相似度度量方法,例如余弦相似度、编辑距离等,以准确检索到与待翻译标题相似的示例。2) Prompt构建:设计有效的prompt格式,确保LLM能够充分利用few-shot examples中的信息。例如,可以采用“源语言标题 -> 目标语言标题”的格式。3) LLM选择:选择合适的LLM,例如具有较强跨语言能力的模型。4) 检索数量:确定检索的相似示例的数量,需要在提供足够上下文信息和避免prompt过长之间进行权衡。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,提出的RAG方法能够显著提升产品标题翻译质量,尤其是在LLM熟练度有限的语言对上。例如,对于某些语言对,chrF得分提升高达15.3%。该方法在不进行模型微调的情况下,优于直接使用LLM进行翻译的方法,证明了RAG方法在产品标题翻译任务中的有效性。

🎯 应用场景

该研究成果可广泛应用于跨境电商平台,提升商品信息的多语言展示质量,帮助消费者更好地理解商品信息,促进跨境贸易。此外,该方法也可应用于其他短文本翻译场景,例如新闻标题翻译、社交媒体内容翻译等。未来,可以探索将该方法与其他技术相结合,例如知识图谱、领域词典等,进一步提升翻译质量。

📄 摘要(原文)

E-commerce stores enable multilingual product discovery which require accurate product title translation. Multilingual large language models (LLMs) have shown promising capacity to perform machine translation tasks, and it can also enhance and translate product titles cross-lingually in one step. However, product title translation often requires more than just language conversion because titles are short, lack context, and contain specialized terminology. This study proposes a retrieval-augmented generation (RAG) approach that leverages existing bilingual product information in e-commerce by retrieving similar bilingual examples and incorporating them as few-shot prompts to enhance LLM-based product title translation. Experiment results show that our proposed RAG approach improve product title translation quality with chrF score gains of up to 15.3% for language pairs where the LLM has limited proficiency.