Large Language Models for Ingredient Substitution in Food Recipes using Supervised Fine-tuning and Direct Preference Optimization

📄 arXiv: 2412.04922v1 📥 PDF

作者: Thevin Senath, Kumuthu Athukorala, Ransika Costa, Surangika Ranathunga, Rishemjit Kaur

分类: cs.CL

发布日期: 2024-12-06


💡 一句话要点

利用监督微调和直接偏好优化,提出基于大语言模型的食谱配料替换方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 配料替换 食谱个性化 监督微调 直接偏好优化 Recipe1MSub Mistral7-Base

📋 核心要点

  1. 现有配料替换方法缺乏对食谱上下文的理解,难以生成合理且符合用户偏好的替代方案。
  2. 利用大型语言模型强大的上下文理解和生成能力,通过微调和偏好优化,学习配料替换的策略。
  3. 实验表明,经过微调和直接偏好优化的Mistral7-Base模型在Recipe1MSub数据集上取得了显著的性能提升。

📝 摘要(中文)

本文旨在解决通过配料替换实现食谱个性化的问题。我们利用大型语言模型(LLMs)构建了一个配料替换系统,该系统旨在预测给定食谱上下文中合理的替代配料。鉴于LLMs在该任务中的应用尚不成熟,我们进行了一系列广泛的实验,以确定最佳的LLM、提示和微调设置。我们进一步尝试了多任务学习、两阶段微调和直接偏好优化(DPO)等方法。实验使用公开的Recipe1MSub语料库进行。结果表明,经过微调和DPO的Mistral7-Base LLM产生了最佳结果,其Hit@1得分为22.04,优于该语料库的强基线。因此,我们认为这项研究代表着利用基于LLM的配料替换来实现个性化和创造性烹饪体验的重要一步。

🔬 方法详解

问题定义:论文旨在解决食谱中配料替换的个性化推荐问题。现有方法通常依赖于简单的规则或相似度计算,无法充分理解食谱的上下文信息,导致推荐的替代配料不合理或不符合用户的口味偏好。因此,需要一种能够理解食谱语义并生成高质量替代配料的方法。

核心思路:论文的核心思路是利用大型语言模型(LLMs)强大的语言理解和生成能力,将配料替换问题建模为一个序列生成任务。通过对LLM进行微调,使其能够学习食谱的上下文信息,并生成合理的替代配料。此外,采用直接偏好优化(DPO)方法,直接优化模型的偏好,使其生成的替代配料更符合用户的期望。

技术框架:整体框架包括以下几个阶段:1) 数据准备:使用Recipe1MSub语料库构建训练数据集,包括食谱及其对应的替代配料。2) 模型选择:选择Mistral7-Base作为基础LLM。3) 微调:使用监督学习方法对LLM进行微调,使其能够生成替代配料。4) 偏好优化:使用DPO方法,根据用户偏好数据进一步优化模型。

关键创新:论文的关键创新在于:1) 将LLM应用于配料替换任务,充分利用了LLM的上下文理解和生成能力。2) 采用DPO方法,直接优化模型的偏好,使其生成的替代配料更符合用户的期望。3) 进行了多任务学习和两阶段微调等实验,探索了不同的微调策略。

关键设计:论文的关键设计包括:1) 使用Recipe1MSub语料库构建训练数据集。2) 选择Mistral7-Base作为基础LLM。3) 使用交叉熵损失函数进行监督微调。4) 使用DPO方法,根据用户偏好数据进一步优化模型。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过微调和直接偏好优化的Mistral7-Base模型在Recipe1MSub数据集上取得了显著的性能提升,Hit@1得分为22.04,优于该语料库的强基线。这表明,基于LLM的配料替换方法具有很大的潜力,能够生成更合理、更符合用户偏好的替代配料。

🎯 应用场景

该研究成果可应用于个性化食谱推荐系统,帮助用户根据自身偏好、食材可用性或健康需求,轻松替换食谱中的配料,创造更符合个人口味的菜肴。此外,该技术还可用于智能烹饪助手,为用户提供实时的配料替换建议,提升烹饪体验。未来,该研究有望推动食品科技领域的发展,促进更健康、更个性化的饮食习惯。

📄 摘要(原文)

In this paper, we address the challenge of recipe personalization through ingredient substitution. We make use of Large Language Models (LLMs) to build an ingredient substitution system designed to predict plausible substitute ingredients within a given recipe context. Given that the use of LLMs for this task has been barely done, we carry out an extensive set of experiments to determine the best LLM, prompt, and the fine-tuning setups. We further experiment with methods such as multi-task learning, two-stage fine-tuning, and Direct Preference Optimization (DPO). The experiments are conducted using the publicly available Recipe1MSub corpus. The best results are produced by the Mistral7-Base LLM after fine-tuning and DPO. This result outperforms the strong baseline available for the same corpus with a Hit@1 score of 22.04. Thus we believe that this research represents a significant step towards enabling personalized and creative culinary experiences by utilizing LLM-based ingredient substitution.