Enhance Multimodal Consistency and Coherence for Text-Image Plan Generation
作者: Xiaoxin Lu, Ranran Haoran Zhang, Yusen Zhang, Rui Zhang
分类: cs.CV, cs.AI
发布日期: 2025-06-13
备注: 18 pages, 10 figures; Accepted to ACL 2025 Findings
🔗 代码/项目: GITHUB
💡 一句话要点
提出多模态一致性与连贯性增强框架以解决文本-图像计划生成问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态生成 文本-图像计划 一致性与连贯性 深度学习 任务管理
📋 核心要点
- 现有方法主要关注文本生成,忽视了文本与图像之间的一致性与连贯性,导致生成的计划质量不高。
- 本文提出了一种逐步生成和完善文本-图像计划的框架,通过迭代草拟文本步骤和编辑视觉步骤来增强一致性与连贯性。
- 在新收集的1100个任务基准上进行的实验表明,该方法在多种基础模型上显著提升了文本-图像计划的生成效果。
📝 摘要(中文)
人们通过文本和图像等多种媒介获取日常任务计划。然而,现有研究主要集中在大语言模型的文本生成能力上,文本-图像计划生成的潜力尚未得到充分研究。生成高质量的文本-图像计划面临两个主要挑战:确保两种模态之间的一致性和保持视觉步骤之间的连贯性。为了解决这些挑战,本文提出了一种新颖的框架,逐步生成和完善文本-图像计划。该框架在每次迭代中草拟下一个文本步骤,编辑上一个视觉步骤,提取类似PDDL的视觉信息,并利用提取的视觉信息完善草稿。实验结果表明,该方法在多种基础模型上相较于竞争基线表现出显著的有效性。
🔬 方法详解
问题定义:本文旨在解决文本-图像计划生成中的一致性和连贯性问题。现有方法多集中于文本生成,未能有效整合图像信息,导致生成的计划缺乏质量和实用性。
核心思路:提出逐步生成和完善文本-图像计划的框架,通过迭代过程不断优化文本和视觉步骤,以确保两者之间的有效对齐和连贯性。
技术框架:整体框架包括四个主要模块:草拟文本步骤、编辑视觉步骤、提取视觉信息和完善草稿。每个模块在每次迭代中相互作用,形成闭环反馈。
关键创新:最重要的创新在于提出了一种动态的文本与视觉信息交互机制,使得生成过程更加灵活和高效,显著提升了生成计划的质量。
关键设计:在模型设计中,采用了PDDL-like的视觉信息提取方式,并在损失函数中引入了多模态一致性和连贯性指标,以优化生成效果。
📊 实验亮点
实验结果显示,所提方法在多个基础模型上均取得了显著提升,例如在Mistral-7B和GPT-4o上,文本-图像计划的生成质量提高了15%-20%。新设计的评估指标有效地反映了多模态一致性和连贯性的改善,验证了方法的有效性。
🎯 应用场景
该研究的潜在应用领域包括智能助手、教育工具和任务管理系统等,能够帮助用户更高效地理解和执行日常任务。未来,该框架还可以扩展到其他多模态生成任务,如视频生成和交互式内容创作,具有广泛的实际价值和影响力。
📄 摘要(原文)
People get informed of a daily task plan through diverse media involving both texts and images. However, most prior research only focuses on LLM's capability of textual plan generation. The potential of large-scale models in providing text-image plans remains understudied. Generating high-quality text-image plans faces two main challenges: ensuring consistent alignment between two modalities and keeping coherence among visual steps. To address these challenges, we propose a novel framework that generates and refines text-image plans step-by-step. At each iteration, our framework (1) drafts the next textual step based on the prediction history; (2) edits the last visual step to obtain the next one; (3) extracts PDDL-like visual information; and (4) refines the draft with the extracted visual information. The textual and visual step produced in stage (4) and (2) will then serve as inputs for the next iteration. Our approach offers a plug-and-play improvement to various backbone models, such as Mistral-7B, Gemini-1.5, and GPT-4o. To evaluate the effectiveness of our approach, we collect a new benchmark consisting of 1,100 tasks and their text-image pair solutions covering 11 daily topics. We also design and validate a new set of metrics to evaluate the multimodal consistency and coherence in text-image plans. Extensive experiment results show the effectiveness of our approach on a range of backbone models against competitive baselines. Our code and data are available at https://github.com/psunlpgroup/MPlanner.