Chain-of-Cooking:Cooking Process Visualization via Bidirectional Chain-of-Thought Guidance

📄 arXiv: 2507.21529v1 📥 PDF

作者: Mengling Xu, Ming Tao, Bing-Kun Bao

分类: cs.CV

发布日期: 2025-07-29

备注: Accepted by ACM MM 2025

DOI: 10.1145/3746027.3754727


💡 一句话要点

提出Chain-of-Cooking模型,通过双向CoT指导实现烹饪过程可视化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 烹饪过程可视化 图像生成 思维链 语义一致性 上下文连贯性

📋 核心要点

  1. 现有方法难以生成与文本描述一致的中间步骤图像,且忽略了烹饪步骤间的上下文依赖关系,导致语义不一致和连贯性差。
  2. 提出Chain-of-Cooking模型,利用动态补丁选择模块生成正确的食材外观,并通过语义演化模块和双向CoT指导增强图像序列的连贯性。
  3. 构建了CookViz数据集,实验结果表明,该方法在生成连贯且语义一致的烹饪过程图像方面优于现有方法。

📝 摘要(中文)

本文提出了一种名为Chain-of-Cooking的烹饪过程可视化模型,旨在根据食谱的每个步骤生成对应的图像。该模型解决了现有方法在烹饪过程可视化中面临的两个挑战:一是食材外观在烹饪步骤中变化多样,难以生成与文本描述一致的图像,导致语义不一致;二是当前步骤依赖于前一步骤的操作,难以保持图像在序列顺序上的上下文连贯性。为了生成正确的食材外观,模型提出了动态补丁选择模块,检索先前生成的图像补丁作为参考,这些补丁与当前文本内容最相关。为了增强连贯性并保持生成图像的合理顺序,模型提出了语义演化模块和双向思维链(CoT)指导。此外,作者构建了一个名为CookViz的数据集,包含烹饪过程的中间图像-文本对。实验结果表明,该方法在生成连贯且语义一致的烹饪过程方面优于现有方法。

🔬 方法详解

问题定义:烹饪过程可视化旨在根据食谱的每个步骤生成对应的图像。现有方法主要集中于根据食谱生成最终食物的图像,而忽略了中间步骤的变化,导致生成的图像与文本描述不一致,且缺乏步骤间的连贯性。现有方法难以捕捉食材外观在烹饪过程中的变化,以及步骤间的依赖关系,从而无法生成高质量的烹饪过程图像序列。

核心思路:论文的核心思路是利用先前生成的图像信息和文本信息,指导当前步骤的图像生成。通过动态选择与当前文本相关的图像补丁作为参考,保证食材外观的准确性。同时,利用语义演化模块和双向CoT指导,建立步骤间的语义关联,保持图像序列的连贯性和合理顺序。这种方法模拟了人类烹饪过程中的思考方式,即参考之前的步骤和经验,逐步完成当前的烹饪任务。

技术框架:Chain-of-Cooking模型主要包含以下几个模块: 1. 动态补丁选择模块 (Dynamic Patch Selection Module):从先前生成的图像中检索与当前文本内容最相关的图像补丁,作为生成当前图像的参考。 2. 语义演化模块 (Semantic Evolution Module):建立潜在提示与当前烹饪步骤之间的语义关联,并将语义信息融入潜在特征中。 3. 双向思维链指导 (Bidirectional Chain-of-Thought (CoT) Guidance):利用前向和后向的CoT信息,更新融合后的特征,指导当前烹饪步骤的图像生成,保持与前后步骤的连贯性。

关键创新:该论文的关键创新在于: 1. 动态补丁选择模块:能够根据当前文本内容,动态地选择先前生成的图像补丁作为参考,从而更准确地生成食材的外观。 2. 双向CoT指导:通过前向和后向的CoT信息,增强了图像序列的连贯性,保证了烹饪过程的合理顺序。 3. CookViz数据集:构建了一个包含烹饪过程中间图像-文本对的数据集,为烹饪过程可视化研究提供了新的资源。

关键设计: * 动态补丁选择模块:使用注意力机制计算当前文本与先前生成图像补丁之间的相关性,选择相关性最高的补丁作为参考。 * 语义演化模块:使用循环神经网络(RNN)对文本信息进行编码,并将编码后的文本特征与潜在特征进行融合。 * 双向CoT指导:使用Transformer网络对前向和后向的文本信息进行编码,并将编码后的CoT信息用于指导图像生成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Chain-of-Cooking模型在CookViz数据集上取得了显著的性能提升。相较于现有方法,该模型生成的烹饪过程图像在语义一致性和连贯性方面均有明显改善。具体性能数据未知,但定性结果表明,该模型能够生成更逼真、更符合食谱描述的烹饪过程图像。

🎯 应用场景

该研究成果可应用于智能烹饪助手、食谱生成、烹饪教学等领域。通过可视化烹饪过程,可以帮助用户更好地理解食谱,提高烹饪成功率。此外,该技术还可以用于生成个性化的食谱和烹饪指导,满足不同用户的需求。未来,该技术有望与机器人技术结合,实现自动化烹饪。

📄 摘要(原文)

Cooking process visualization is a promising task in the intersection of image generation and food analysis, which aims to generate an image for each cooking step of a recipe. However, most existing works focus on generating images of finished foods based on the given recipes, and face two challenges to visualize the cooking process. First, the appearance of ingredients changes variously across cooking steps, it is difficult to generate the correct appearances of foods that match the textual description, leading to semantic inconsistency. Second, the current step might depend on the operations of previous step, it is crucial to maintain the contextual coherence of images in sequential order. In this work, we present a cooking process visualization model, called Chain-of-Cooking. Specifically, to generate correct appearances of ingredients, we present a Dynamic Patch Selection Module to retrieve previously generated image patches as references, which are most related to current textual contents. Furthermore, to enhance the coherence and keep the rational order of generated images, we propose a Semantic Evolution Module and a Bidirectional Chain-of-Thought (CoT) Guidance. To better utilize the semantics of previous texts, the Semantic Evolution Module establishes the semantical association between latent prompts and current cooking step, and merges it with the latent features. Then the CoT Guidance updates the merged features to guide the current cooking step remain coherent with the previous step. Moreover, we construct a dataset named CookViz, consisting of intermediate image-text pairs for the cooking process. Quantitative and qualitative experiments show that our method outperforms existing methods in generating coherent and semantic consistent cooking process.