Retrieval Augmented Recipe Generation
作者: Guoshan Liu, Hailong Yin, Bin Zhu, Jingjing Chen, Chong-Wah Ngo, Yu-Gang Jiang
分类: cs.CV
发布日期: 2024-11-13 (更新: 2024-12-09)
备注: ACCEPT on IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) 2025
💡 一句话要点
提出检索增强的大型多模态模型,解决食谱生成中的幻觉问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 食谱生成 多模态学习 检索增强 大型多模态模型 幻觉问题 自洽性 图像理解
📋 核心要点
- 现有食谱生成方法依赖两阶段训练,且大型多模态模型易产生幻觉,影响生成质量。
- 提出检索增强方法,利用随机多样化检索(SDRA)扩充上下文,提升模型对图像的理解。
- 引入自洽集成投票机制,通过评估生成结果的一致性,筛选出更可靠的食谱预测。
📝 摘要(中文)
近年来,从食物图像生成食谱的应用前景广阔,受到了研究人员的广泛关注。现有的食谱生成方法主要采用两阶段训练,首先生成食材,然后从图像和食材中获取步骤。大型多模态模型(LMMs)在各种视觉和语言任务中取得了显著成功,为直接从图像生成食材和步骤提供了思路。然而,LMMs在食谱生成过程中仍然面临幻觉问题,导致性能不佳。为了解决这个问题,我们提出了一种检索增强的大型多模态模型用于食谱生成。我们首先引入随机多样化检索增强(SDRA),从现有数据集中检索与图像语义相关的食谱作为补充,将其整合到提示中,为输入图像添加多样化和丰富的上下文。此外,提出了自洽集成投票机制,以确定最可靠的预测食谱作为最终输出。它计算生成食谱候选者之间的一致性,这些候选者使用不同的检索食谱作为生成上下文。大量的实验验证了我们提出的方法的有效性,该方法在Recipe1M数据集上的食谱生成任务中表现出最先进(SOTA)的性能。
🔬 方法详解
问题定义:论文旨在解决食谱生成任务中,大型多模态模型(LMMs)容易产生幻觉的问题。现有方法通常采用两阶段训练,先生成食材再生成步骤,效率较低。直接使用LMMs生成食谱虽然可行,但由于模型本身的局限性,容易生成不真实或不相关的食材和步骤,影响食谱的实用性。
核心思路:论文的核心思路是通过检索增强的方式,为LMMs提供更丰富、更可靠的上下文信息,从而减少幻觉的产生。具体来说,就是从现有的食谱数据集中检索与输入图像相关的食谱,并将这些检索到的食谱作为提示(prompt)的一部分,输入到LMMs中,引导模型生成更准确的食谱。
技术框架:整体框架包含以下几个主要模块:1) 图像编码器:用于提取输入食物图像的视觉特征。2) 食谱检索模块:使用随机多样化检索增强(SDRA)策略,从食谱数据集中检索与图像相关的多个食谱。3) 提示构建模块:将图像特征和检索到的食谱信息组合成提示,输入到LMMs中。4) 大型多模态模型(LMMs):根据提示生成食谱。5) 自洽集成投票模块:生成多个食谱候选,通过计算一致性,选择最可靠的食谱作为最终输出。
关键创新:论文的关键创新点在于:1) 随机多样化检索增强(SDRA):不同于传统的检索方法,SDRA旨在检索多个语义相关的食谱,并保证它们的多样性,从而为LMMs提供更全面的上下文信息。2) 自洽集成投票机制:通过评估多个生成食谱候选的一致性,选择最可靠的食谱,进一步提高生成质量。
关键设计:SDRA通过随机采样和多样性损失函数来实现。具体来说,首先使用预训练的图像和文本嵌入模型计算图像和食谱之间的相似度,然后根据相似度进行采样,同时引入多样性损失函数,鼓励采样到的食谱之间具有一定的差异性。自洽集成投票机制则通过计算不同食谱候选之间的ROUGE分数来评估一致性,选择ROUGE分数最高的食谱作为最终输出。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在Recipe1M数据集上取得了state-of-the-art的性能。相较于现有方法,该方法在BLEU-1、BLEU-4、METEOR和ROUGE-L等指标上均有显著提升,证明了检索增强和自洽集成投票机制的有效性。具体提升幅度未知,原文未给出具体数值。
🎯 应用场景
该研究成果可应用于智能烹饪助手、食谱推荐系统、以及食品图像识别等领域。通过图像自动生成食谱,可以帮助用户更方便地获取烹饪灵感,提高烹饪效率。此外,该技术还可以用于食品电商平台,根据用户上传的食物图片,推荐相关的食材和食谱。
📄 摘要(原文)
Given the potential applications of generating recipes from food images, this area has garnered significant attention from researchers in recent years. Existing works for recipe generation primarily utilize a two-stage training method, first generating ingredients and then obtaining instructions from both the image and ingredients. Large Multi-modal Models (LMMs), which have achieved notable success across a variety of vision and language tasks, shed light to generating both ingredients and instructions directly from images. Nevertheless, LMMs still face the common issue of hallucinations during recipe generation, leading to suboptimal performance. To tackle this, we propose a retrieval augmented large multimodal model for recipe generation. We first introduce Stochastic Diversified Retrieval Augmentation (SDRA) to retrieve recipes semantically related to the image from an existing datastore as a supplement, integrating them into the prompt to add diverse and rich context to the input image. Additionally, Self-Consistency Ensemble Voting mechanism is proposed to determine the most confident prediction recipes as the final output. It calculates the consistency among generated recipe candidates, which use different retrieval recipes as context for generation. Extensive experiments validate the effectiveness of our proposed method, which demonstrates state-of-the-art (SOTA) performance in recipe generation tasks on the Recipe1M dataset.