Rhetorical Text-to-Image Generation via Two-layer Diffusion Policy Optimization
作者: Yuxi Zhang, Yueting Li, Xinyu Du, Sibo Wang
分类: cs.CV
发布日期: 2025-05-28 (更新: 2025-08-09)
💡 一句话要点
提出Rhet2Pix,通过双层扩散策略优化解决修辞文本到图像生成难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到图像生成 修辞理解 扩散模型 策略优化 多模态学习
📋 核心要点
- 现有模型在处理修辞文本时,由于过度依赖字面意义,无法捕捉深层语义,导致图像生成效果不佳。
- Rhet2Pix采用双层MDP扩散策略优化,通过逐步细化文本提示和优化扩散过程中的动作,提升图像的语义准确性。
- 实验表明,Rhet2Pix在修辞文本到图像生成任务上显著优于GPT-4o、Grok-3等先进模型,具有明显的性能提升。
📝 摘要(中文)
本文提出Rhet2Pix框架,旨在解决修辞语言生成图像的挑战。现有文本到图像模型,即使是最先进的多模态大语言模型(MLLM),也难以根据修辞语言中蕴含的隐藏含义生成图像。这是因为现有模型侧重于对象级别的词嵌入对齐,导致隐喻表达将图像生成导向字面视觉效果,忽略了预期的语义。Rhet2Pix将修辞文本到图像生成建模为一个多步策略优化问题,并引入双层MDP扩散模块。外层将输入提示分解为逐步细化的子句,并执行相应的图像生成动作,构建语义更丰富的视觉效果。内层通过折扣最终奖励并优化扩散去噪轨迹上的每个相邻动作对,来缓解图像生成过程中的奖励稀疏性。实验结果表明,Rhet2Pix在修辞文本到图像生成方面优于SOTA的MLLM,如GPT-4o、Grok-3以及领先的学术基线。
🔬 方法详解
问题定义:论文旨在解决修辞文本到图像生成的问题。现有方法,特别是基于大型语言模型的方法,在处理修辞语言时,倾向于关注字面意义,而忽略了修辞背后的深层含义,导致生成的图像与预期语义不符。现有模型的痛点在于缺乏对修辞语言的理解和推理能力。
核心思路:论文的核心思路是将修辞文本到图像的生成过程建模为一个多步决策过程,通过策略优化来逐步生成符合修辞含义的图像。具体来说,通过将复杂的修辞语句分解为一系列更简单的子句,并逐步生成与这些子句对应的图像,从而构建出最终的、符合修辞含义的图像。这种分解和逐步生成的方式有助于模型更好地理解修辞语言的深层含义。
技术框架:Rhet2Pix框架包含一个双层MDP扩散模块。外层MDP负责将输入提示分解为一系列逐步细化的子句,并为每个子句执行相应的图像生成动作。内层MDP则负责优化扩散去噪过程中的每一步,以提高图像生成的质量。整体流程如下:1) 输入修辞文本;2) 外层MDP将文本分解为子句序列;3) 对于每个子句,内层MDP执行扩散去噪过程生成图像;4) 将生成的图像组合成最终图像。
关键创新:论文的关键创新在于将修辞文本到图像生成建模为一个双层策略优化问题。外层策略负责文本分解和图像生成动作的选择,内层策略负责优化扩散去噪过程。这种双层结构使得模型能够更好地理解修辞语言的深层含义,并生成高质量的图像。与现有方法相比,Rhet2Pix更加注重对修辞语言的理解和推理,而不是简单地进行字面匹配。
关键设计:在外层MDP中,状态是当前已生成的图像和剩余的文本提示,动作是选择下一个要生成的子句。奖励函数旨在鼓励生成与修辞含义相关的图像。在内层MDP中,状态是扩散过程中的噪声图像,动作是去噪操作。奖励函数旨在提高图像的质量和与文本提示的相关性。此外,论文还采用了折扣奖励机制来缓解奖励稀疏性问题,并优化扩散去噪轨迹上的每个相邻动作对。
🖼️ 关键图片
📊 实验亮点
Rhet2Pix在修辞文本到图像生成任务上取得了显著的性能提升。实验结果表明,Rhet2Pix在多个数据集上优于SOTA的MLLM,如GPT-4o、Grok-3以及领先的学术基线。具体而言,Rhet2Pix在定性和定量评估中均表现出更强的修辞理解能力和图像生成质量,能够生成更符合修辞含义的图像。
🎯 应用场景
Rhet2Pix在创意内容生成、广告设计、艺术创作等领域具有广泛的应用前景。它可以帮助用户根据具有修辞色彩的文本描述生成更具表现力和创意的图像,从而提升内容创作的效率和质量。此外,该技术还可以应用于教育领域,帮助学生更好地理解和运用修辞手法。
📄 摘要(原文)
Generating images from rhetorical languages remains a critical challenge for text-to-image models. Even state-of-the-art (SOTA) multimodal large language models (MLLM) fail to generate images based on the hidden meaning inherent in rhetorical language--despite such content being readily mappable to visual representations by humans. A key limitation is that current models emphasize object-level word embedding alignment, causing metaphorical expressions to steer image generation towards their literal visuals and overlook the intended semantic meaning. To address this, we propose Rhet2Pix, a framework that formulates rhetorical text-to-image generation as a multi-step policy optimization problem, incorporating a two-layer MDP diffusion module. In the outer layer, Rhet2Pix converts the input prompt into incrementally elaborated sub-sentences and executes corresponding image-generation actions, constructing semantically richer visuals. In the inner layer, Rhet2Pix mitigates reward sparsity during image generation by discounting the final reward and optimizing every adjacent action pair along the diffusion denoising trajectory. Extensive experiments demonstrate the effectiveness of Rhet2Pix in rhetorical text-to-image generation. Our model outperforms SOTA MLLMs such as GPT-4o, Grok-3 and leading academic baselines across both qualitative and quantitative evaluations. The code and dataset used in this work are publicly available.