SIMMER: Cross-Modal Food Image--Recipe Retrieval via MLLM-Based Embedding

作者: Keisuke Gomi, Keiji Yanai

分类: cs.CV, cs.CL, cs.IR, cs.LG, cs.MM

发布日期: 2026-04-17

备注: 20 pages, 6 figures

💡 一句话要点

SIMMER：利用MLLM嵌入实现跨模态食物图像-食谱检索

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 跨模态检索 食物图像 食谱文本 多模态大语言模型 嵌入学习

📋 核心要点

现有跨模态食物图像-食谱检索方法依赖双编码器，需复杂对齐策略，难以有效弥合图像和文本间的语义鸿沟。
SIMMER提出基于MLLM的单编码器模型VLM2Vec，统一处理图像和文本，并通过提示模板和数据增强提升性能。
实验表明，SIMMER在Recipe1M数据集上显著优于现有方法，在1k和10k检索任务中均取得了SOTA性能。

📝 摘要（中文）

食物图像和食谱文本之间的跨模态检索在营养管理、饮食记录和烹饪辅助等领域具有重要应用。现有方法主要依赖于具有独立图像和文本编码器的双编码器架构，需要复杂的对齐策略和特定任务的网络设计来弥合模态之间的语义差距。本文提出了SIMMER（Single Integrated Multimodal Model for Embedding Recipes），它将基于多模态大型语言模型（MLLM）的嵌入模型，特别是VLM2Vec，应用于此任务，用处理食物图像和食谱文本的单个统一编码器取代了传统的双编码器范例。我们设计了针对食谱结构化性质的提示模板，食谱由标题、配料和烹饪说明组成，从而使MLLM能够生成有效的嵌入。我们进一步引入了一种组件感知的数据增强策略，该策略在完整和部分食谱上训练模型，从而提高了对不完整输入的鲁棒性。在Recipe1M数据集上的实验表明，SIMMER在1k和10k评估设置中均实现了最先进的性能，大大优于所有先前的方法。特别是，与先前最佳方法相比，我们最好的模型将1k图像到食谱的R@1从81.8％提高到87.5％，将10k图像到食谱的R@1从56.5％提高到65.5％。

🔬 方法详解

问题定义：论文旨在解决食物图像和食谱文本之间的跨模态检索问题。现有方法主要采用双编码器结构，分别编码图像和文本，然后通过复杂的对齐策略来学习两种模态之间的关联。这种方法需要针对特定任务设计网络结构，且难以有效弥合图像和文本之间的语义鸿沟。

核心思路：论文的核心思路是利用多模态大型语言模型（MLLM）的强大能力，将图像和文本统一编码到一个共享的嵌入空间中。通过使用单个统一的编码器，避免了双编码器结构中复杂的对齐过程，从而简化了模型设计并提高了检索性能。

技术框架：SIMMER使用VLM2Vec作为其核心的MLLM嵌入模型。整体流程如下：首先，将食物图像和食谱文本（包括标题、配料和烹饪说明）输入到VLM2Vec中。为了更好地利用食谱的结构化信息，论文设计了特定的提示模板，引导MLLM生成更有效的嵌入表示。然后，使用生成的嵌入向量进行图像-食谱检索。此外，论文还引入了一种组件感知的数据增强策略，以提高模型对不完整食谱输入的鲁棒性。

关键创新：最重要的技术创新点在于使用MLLM作为统一的跨模态编码器，取代了传统的双编码器结构。与现有方法相比，SIMMER能够更有效地学习图像和文本之间的关联，并避免了复杂的对齐过程。此外，组件感知的数据增强策略也提高了模型的泛化能力。

关键设计：论文的关键设计包括：1) 针对食谱结构化信息的提示模板，例如将食谱标题、配料和步骤分别作为提示输入；2) 组件感知的数据增强策略，通过随机删除食谱中的部分信息（如配料或步骤）来训练模型，提高其对不完整输入的鲁棒性；3) 使用VLM2Vec作为MLLM嵌入模型，该模型具有强大的多模态理解和生成能力。

🖼️ 关键图片

📊 实验亮点

SIMMER在Recipe1M数据集上取得了显著的性能提升。在1k评估设置中，图像到食谱的R@1指标从81.8%提升到87.5%，提升了5.7个百分点；在10k评估设置中，R@1指标从56.5%提升到65.5%，提升了9个百分点。这些结果表明，SIMMER显著优于现有的跨模态食物图像-食谱检索方法。

🎯 应用场景

该研究成果可应用于营养管理、饮食记录和烹饪辅助等领域。例如，用户可以通过上传食物图片快速检索相关食谱，或者根据现有食材推荐菜谱。该技术还有助于个性化饮食推荐，提升用户体验，并可能在智能厨房和健康饮食App中得到广泛应用。

📄 摘要（原文）

Cross-modal retrieval between food images and recipe texts is an important task with applications in nutritional management, dietary logging, and cooking assistance. Existing methods predominantly rely on dual-encoder architectures with separate image and text encoders, requiring complex alignment strategies and task-specific network designs to bridge the semantic gap between modalities. In this work, we propose SIMMER (Single Integrated Multimodal Model for Embedding Recipes), which applies Multimodal Large Language Model (MLLM)-based embedding models, specifically VLM2Vec, to this task, replacing the conventional dual-encoder paradigm with a single unified encoder that processes both food images and recipe texts. We design prompt templates tailored to the structured nature of recipes, which consist of a title, ingredients, and cooking instructions, enabling effective embedding generation by the MLLM. We further introduce a component-aware data augmentation strategy that trains the model on both complete and partial recipes, improving robustness to incomplete inputs. Experiments on the Recipe1M dataset demonstrate that SIMMER achieves state-of-the-art performance across both the 1k and 10k evaluation settings, substantially outperforming all prior methods. In particular, our best model improves the 1k image-to-recipe R@1 from 81.8\% to 87.5\% and the 10k image-to-recipe R@1 from 56.5\% to 65.5\% compared to the previous best method.

SIMMER: Cross-Modal Food Image--Recipe Retrieval via MLLM-Based Embedding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理