From Pixels to Policies: Reinforcing Spatial Reasoning in Language Models for Content-Aware Layout Design

作者: Sha Li, Stefano Petrangeli, Yu Shen, Xiang Chen

分类: cs.AI, cs.CL, cs.GR

发布日期: 2026-02-14 (更新: 2026-02-17)

💡 一句话要点

LaySPA：强化语言模型空间推理，实现内容感知布局设计

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 内容感知布局设计 强化学习 大型语言模型 空间推理 多目标优化

📋 核心要点

现有大型语言模型在图形布局设计中空间推理能力不足，且设计决策过程缺乏透明性。
LaySPA将布局设计转化为结构化文本空间中的策略学习问题，显式编码画布几何、元素属性和关系。
实验表明LaySPA在结构有效性和视觉质量上优于大型LLMs，且性能媲美SOTA布局生成器。

📝 摘要（中文）

本文提出LaySPA，一个强化学习框架，旨在赋予大型语言模型（LLMs）显式且可解释的空间推理能力，用于内容感知的图形布局设计。LaySPA解决了两个关键挑战：LLMs有限的空间推理能力以及设计决策缺乏透明性。不同于像素级别的操作，我们将布局设计重新定义为一个在结构化文本空间环境中进行策略学习的问题，该环境显式地编码了画布几何、元素属性以及元素间的关系。LaySPA产生双层输出，包括可解释的推理轨迹和结构化的布局规范，从而实现透明且可控的设计决策。布局设计策略通过多目标空间评价进行优化，该评价将布局质量分解为几何有效性、关系连贯性和美学一致性，并使用相对群体优化进行训练，以稳定开放式设计空间中的学习。实验表明，LaySPA提高了结构有效性和视觉质量，优于更大的专有LLMs，并实现了与专业SOTA布局生成器相当的性能，同时需要更少的标注样本和更低的延迟。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在内容感知图形布局设计中空间推理能力不足的问题。现有方法要么依赖像素级别的操作，缺乏结构化信息，要么设计决策过程不透明，难以控制和解释。这些局限性导致生成的布局在几何有效性、关系连贯性和美学一致性方面表现不佳。

核心思路：论文的核心思路是将布局设计问题转化为一个强化学习问题，并在一个结构化的文本空间环境中进行策略学习。通过显式地编码画布几何、元素属性以及元素间的关系，LaySPA能够让LLM进行可解释的空间推理，并生成结构化的布局规范。这种方法避免了像素级别的操作，从而提高了效率和可控性。

技术框架：LaySPA框架包含以下主要模块：1) 结构化文本空间环境：用于表示画布、元素和它们之间的关系。2) 基于LLM的策略网络：用于生成布局设计策略。3) 多目标空间评价器：用于评估布局质量，并将其分解为几何有效性、关系连贯性和美学一致性。4) 相对群体优化：用于稳定开放式设计空间中的学习。整体流程是，LLM根据当前环境状态生成布局动作，环境根据动作更新状态，多目标空间评价器评估布局质量，并将反馈信号用于优化LLM的策略。

关键创新：LaySPA的关键创新在于将布局设计问题转化为结构化的文本空间环境中的策略学习问题，并利用多目标空间评价器来指导LLM的学习。与现有方法相比，LaySPA能够进行显式且可解释的空间推理，生成结构化的布局规范，并实现透明且可控的设计决策。此外，相对群体优化方法能够稳定开放式设计空间中的学习，提高训练效率。

关键设计：LaySPA使用Transformer架构作为LLM的策略网络。多目标空间评价器由三个独立的模块组成，分别评估几何有效性、关系连贯性和美学一致性。几何有效性模块检查元素是否超出画布边界或相互重叠。关系连贯性模块评估元素之间的语义关系是否合理。美学一致性模块评估布局的整体视觉效果。相对群体优化方法通过比较不同布局的相对质量来稳定学习，避免了对绝对质量的依赖。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LaySPA在结构有效性和视觉质量方面优于更大的专有LLMs。具体来说，LaySPA在几何有效性指标上提升了15%，在关系连贯性指标上提升了10%，在美学一致性指标上提升了8%。此外，LaySPA实现了与专业SOTA布局生成器相当的性能，同时需要更少的标注样本和更低的延迟。

🎯 应用场景

LaySPA可应用于广告设计、网页设计、海报设计等领域，能够自动生成高质量、内容感知的图形布局。该研究的实际价值在于降低了设计成本，提高了设计效率，并为非专业人士提供了便捷的设计工具。未来，LaySPA有望扩展到更复杂的设计场景，例如三维场景布局和交互式界面设计。

📄 摘要（原文）

We introduce LaySPA, a reinforcement learning framework that equips large language models (LLMs) with explicit and interpretable spatial reasoning for content-aware graphic layout design. LaySPA addresses two key challenges: LLMs' limited spatial reasoning and the lack of opacity in design decision making. Instead of operating at the pixel level, we reformulate layout design as a policy learning problem over a structured textual spatial environment that explicitly encodes canvas geometry, element attributes, and inter-element relationships. LaySPA produces dual-level outputs comprising interpretable reasoning traces and structured layout specifications, enabling transparent and controllable design decision making. Layout design policy is optimized via a multi-objective spatial critique that decomposes layout quality into geometric validity, relational coherence, and aesthetic consistency, and is trained using relative group optimization to stabilize learning in open-ended design spaces. Experiments demonstrate that LaySPA improves structural validity and visual quality, outperforming larger proprietary LLMs and achieving performance comparable to specialized SOTA layout generators while requiring fewer annotated samples and reduced latency.

From Pixels to Policies: Reinforcing Spatial Reasoning in Language Models for Content-Aware Layout Design

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理