Seeing is Improving: Visual Feedback for Iterative Text Layout Refinement

📄 arXiv: 2603.22187v1 📥 PDF

作者: Junrong Guo, Shancheng Fang, Yadong Qu, Hongtao Xie

分类: cs.CV, cs.AI

发布日期: 2026-03-23

备注: Accepted by CVPR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出VFLM:利用视觉反馈迭代优化文本布局生成,提升可读性和美观性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本布局生成 视觉反馈 多模态大语言模型 强化学习 迭代优化

📋 核心要点

  1. 现有文本布局生成方法缺乏对渲染结果的视觉感知,难以保证生成布局的可读性和美观性。
  2. VFLM通过引入视觉反馈机制,迭代优化布局生成结果,实现自适应的反思式生成,提升最终质量。
  3. 实验表明,VFLM在多个基准测试中显著优于现有模型,验证了视觉反馈在布局生成中的重要性。

📝 摘要(中文)

本文提出了一种名为视觉反馈布局模型(VFLM)的自提升框架,旨在解决多模态大语言模型(MLLM)在文本布局生成中忽略视觉结果的问题。现有方法通常采用代码生成范式,先生成布局代码,再通过图形引擎渲染成图像,缺乏对渲染结果的视觉感知,难以保证可读性和美观性。VFLM通过引入视觉反馈进行迭代优化,实现自适应的反思式生成。该模型利用视觉信息反思先前的问题,并迭代生成输出,直到达到令人满意的质量。VFLM采用强化学习,并结合一个包含OCR准确率的视觉奖励模型,仅奖励最终生成的输出,从而有效地激发模型的迭代和反思生成能力。在多个基准测试上的实验表明,VFLM始终优于先进的MLLM、现有的布局模型和纯代码基线,证明了视觉反馈对于面向设计的MLLM至关重要。代码和数据已公开。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型在文本布局生成任务中,由于缺乏对生成结果的视觉反馈,导致布局的可读性和美观性难以保证的问题。现有方法通常采用“代码生成-渲染”的模式,模型只能间接控制最终的视觉效果,无法直接根据视觉结果进行调整,导致生成质量受限。

核心思路:论文的核心思路是引入视觉反馈机制,让模型能够“看到”自己生成的布局,并根据视觉信息进行迭代优化。通过这种方式,模型可以逐步改进布局,提高可读性和美观性。这种思路模拟了人类设计师在设计过程中的迭代和反思过程。

技术框架:VFLM的整体框架是一个迭代式的生成流程。首先,模型根据文本描述生成初始布局。然后,将生成的布局渲染成图像,并输入到视觉奖励模型中。视觉奖励模型评估布局的质量,并给出奖励信号。模型根据奖励信号调整生成策略,并生成新的布局。这个过程重复进行,直到达到预定的迭代次数或满足一定的质量标准。

关键创新:VFLM的关键创新在于引入了视觉反馈机制,并利用强化学习来训练模型。通过视觉奖励模型,模型可以学习到如何生成高质量的布局。与现有方法相比,VFLM能够直接根据视觉信息进行优化,从而更好地控制最终的视觉效果。

关键设计:视觉奖励模型是VFLM的关键组成部分,它需要能够准确评估布局的质量。论文采用了一个包含OCR准确率的视觉奖励模型,OCR准确率可以反映布局的可读性。此外,论文还设计了一个强化学习算法,用于训练模型。该算法仅奖励最终生成的输出,从而鼓励模型进行迭代和反思生成。

📊 实验亮点

实验结果表明,VFLM在多个基准测试中 consistently 优于先进的MLLM、现有的布局模型和纯代码基线。具体性能提升数据在论文中给出,证明了视觉反馈对于设计导向的MLLM至关重要。VFLM能够生成更具可读性和美观性的布局。

🎯 应用场景

VFLM具有广泛的应用前景,例如自动化文档排版、广告设计、网页设计等。它可以帮助用户快速生成高质量的文本布局,提高工作效率。此外,VFLM还可以应用于教育领域,例如辅助学生学习排版设计,或者生成个性化的学习材料。

📄 摘要(原文)

Recent advances in Multimodal Large Language Models (MLLMs) have enabled automated generation of structured layouts from natural language descriptions. Existing methods typically follow a code-only paradigm that generates code to represent layouts, which are then rendered by graphic engines to produce final images. However, they are blind to the rendered visual outcome, making it difficult to guarantee readability and aesthetics. In this paper, we identify visual feedback as a critical factor in layout generation and propose Visual Feedback Layout Model (VFLM), a self-improving framework that leverages visual feedback iterative refinement. VFLM is capable of performing adaptive reflective generation, which leverages visual information to reflect on previous issues and iteratively generates outputs until satisfactory quality is achieved. It is achieved through reinforcement learning with a visually grounded reward model that incorporates OCR accuracy. By rewarding only the final generated outcome, we can effectively stimulate the model's iterative and reflective generative capabilities. Experiments across multiple benchmarks show that VFLM consistently outperforms advanced MLLMs, existing layout models, and code-only baselines, establishing visual feedback as critical for design-oriented MLLMs. Our code and data are available at https://github.com/FolSpark/VFLM.