RecipeGen: A Step-Aligned Multimodal Benchmark for Real-World Recipe Generation

📄 arXiv: 2506.06733v3 📥 PDF

作者: Ruoxuan Zhang, Jidong Gao, Bin Wen, Hongxia Xie, Chenming Zhang, Hong-Han Shuai, Wen-Huang Cheng

分类: cs.CV

发布日期: 2025-06-07 (更新: 2025-06-11)

备注: This is an extended version of arXiv:2503.05228


💡 一句话要点

RecipeGen:提出一个步骤对齐的多模态食谱生成真实世界基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 食谱生成 多模态学习 文本到图像 图像到视频 数据集 步骤对齐 基准测试

📋 核心要点

  1. 现有食谱数据集缺乏食谱目标、步骤指令和视觉内容之间的细粒度对齐,限制了多模态食谱生成模型的发展。
  2. RecipeGen通过构建大规模、步骤对齐的食谱数据集,为文本到图像、图像到视频和文本到视频生成任务提供了统一的评估平台。
  3. 论文提出了领域相关的评估指标,并对现有模型进行了基准测试,为未来食谱生成模型的研究方向提供了参考。

📝 摘要(中文)

本文提出了RecipeGen,这是一个大规模、真实世界的食谱生成基准,用于食谱相关的文本到图像(T2I)、图像到视频(I2V)和文本到视频(T2V)生成任务。现有的数据集缺乏食谱目标、步骤指令和视觉内容之间的细粒度对齐。RecipeGen包含26,453个食谱,196,724张图像和4,491个视频,涵盖了不同的配料、烹饪过程、风格和菜肴类型。此外,本文还提出了特定领域的评估指标,以评估配料的保真度和交互建模,并对代表性的T2I、I2V和T2V模型进行了基准测试,为未来的食谱生成模型提供了见解。

🔬 方法详解

问题定义:论文旨在解决现有食谱数据集缺乏细粒度对齐的问题,这阻碍了多模态食谱生成模型的发展。现有方法难以保证生成内容在配料、步骤和视觉效果上与食谱的一致性。

核心思路:论文的核心思路是构建一个大规模、步骤对齐的多模态食谱数据集,RecipeGen。通过提供丰富的食谱数据,包括文本描述、图像和视频,以及步骤级别的对齐信息,为多模态食谱生成模型提供训练和评估的基础。

技术框架:RecipeGen数据集包含三个主要模态:文本(食谱名称、配料、步骤)、图像(每个步骤对应的图像)和视频(完整的烹饪过程)。数据集构建的关键在于步骤级别的对齐,确保每个步骤的文本描述与对应的图像和视频内容一致。此外,论文还提出了针对食谱生成任务的评估指标,用于评估生成内容的配料保真度和交互建模能力。

关键创新:RecipeGen的主要创新在于其大规模和步骤级别的对齐。与现有数据集相比,RecipeGen提供了更丰富的多模态信息和更细粒度的对齐关系,这使得研究人员可以更好地训练和评估多模态食谱生成模型。此外,论文提出的领域相关评估指标也为食谱生成任务的评估提供了新的思路。

关键设计:RecipeGen数据集包含26,453个食谱,196,724张图像和4,491个视频。论文提出了配料保真度(Ingredient Fidelity)和交互建模(Interaction Modeling)两个评估指标。配料保真度用于评估生成内容中配料的准确性,交互建模用于评估模型对烹饪步骤之间交互的理解能力。具体的技术细节(如损失函数、网络结构)取决于具体的基线模型,论文主要关注数据集的构建和评估指标的设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在RecipeGen数据集上对现有T2I、I2V和T2V模型进行基准测试,展示了数据集的有效性。实验结果表明,现有模型在配料保真度和交互建模方面仍有很大的提升空间。例如,在T2I任务中,现有模型生成的图像在配料的准确性方面表现不佳,这表明未来的研究需要更加关注配料信息的建模。

🎯 应用场景

RecipeGen数据集和相关研究成果可应用于多个领域,包括:烹饪教育(例如,生成烹饪教程视频)、多模态食谱助手(例如,根据用户输入的食谱生成对应的图像或视频)、以及食品图像/视频生成等。该研究有助于提升食谱生成模型的质量和实用性,为用户提供更丰富的烹饪体验。

📄 摘要(原文)

Creating recipe images is a key challenge in food computing, with applications in culinary education and multimodal recipe assistants. However, existing datasets lack fine-grained alignment between recipe goals, step-wise instructions, and visual content. We present RecipeGen, the first large-scale, real-world benchmark for recipe-based Text-to-Image (T2I), Image-to-Video (I2V), and Text-to-Video (T2V) generation. RecipeGen contains 26,453 recipes, 196,724 images, and 4,491 videos, covering diverse ingredients, cooking procedures, styles, and dish types. We further propose domain-specific evaluation metrics to assess ingredient fidelity and interaction modeling, benchmark representative T2I, I2V, and T2V models, and provide insights for future recipe generation models. Project page is available now.