Smaller But Better: Unifying Layout Generation with Smaller Large Language Models
作者: Peirong Zhang, Jiaxin Zhang, Jiahuan Cao, Hongliang Li, Lianwen Jin
分类: cs.LG
发布日期: 2025-02-19
🔗 代码/项目: GITHUB
💡 一句话要点
提出LGGPT,一种基于小型LLM的统一布局生成模型,在效率和性能间取得平衡。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 布局生成 大型语言模型 指令调优 统一建模 间隔量化编码
📋 核心要点
- 现有布局生成方法缺乏统一性,难以处理不同任务和领域,且基于HTML的格式冗余。
- LGGPT通过ALI和ULR统一输入输出格式,并采用IQE压缩指令,提升模型处理复杂布局的能力。
- 实验表明,LGGPT使用15亿参数的LLM,在统一布局生成任务上超越了更大的模型,兼顾性能与效率。
📝 摘要(中文)
本文提出LGGPT,一个专为统一布局生成而设计的基于LLM的模型。首先,提出了任意布局指令(ALI)和通用布局响应(ULR)作为统一的I/O模板。ALI能够适应跨多个布局领域的任意布局生成任务输入,使LGGPT能够统一任务通用和领域通用的布局生成,这是以前未被探索的。ALI和ULR共同构成了一个简洁的结构,避免了现有基于HTML格式中常见的冗余token,从而促进了高效的指令调优并提高了统一生成性能。此外,提出了一种间隔量化编码(IQE)策略,将ALI压缩成更紧凑的结构。IQE精确地保留了有效的布局线索,同时消除了信息量较少的占位符,从而使LGGPT能够在统一训练过程中捕获复杂且可变的布局生成条件。实验结果表明,LGGPT与现有方法相比,实现了卓越或相当的性能。值得注意的是,LGGPT以紧凑的15亿参数LLM在熟练度和效率之间取得了显著的平衡,甚至在最广泛和最具挑战性的统一场景中击败了先前的70亿或1750亿参数模型。此外,通过比较不同规模的LLM,强调了使用LLM进行统一布局生成的必要性,并表明15亿可能是一个最佳参数规模。
🔬 方法详解
问题定义:现有布局生成方法通常针对特定任务和领域设计,缺乏通用性,难以适应多样化的布局生成需求。此外,许多方法采用基于HTML的格式表示布局,存在冗余信息,影响模型训练效率和性能。因此,需要一种能够统一处理不同任务和领域的布局生成方法,并采用更紧凑的表示形式。
核心思路:LGGPT的核心思路是利用大型语言模型(LLM)的强大生成能力,通过统一的输入输出格式和高效的编码策略,实现对各种布局生成任务的统一建模。通过精心设计的指令调优,使小型LLM也能在布局生成任务上取得优异表现。
技术框架:LGGPT的整体框架包括以下几个关键部分:1) 任意布局指令(ALI):定义了一种统一的输入格式,用于描述各种布局生成任务,包括任务类型、领域信息和布局约束等。2) 通用布局响应(ULR):定义了一种统一的输出格式,用于表示生成的布局结果。3) 间隔量化编码(IQE):一种压缩ALI的编码策略,旨在保留关键布局信息,同时减少冗余信息。4) 基于LLM的生成模型:使用一个小型LLM作为生成器,通过指令调优学习从ALI到ULR的映射。
关键创新:LGGPT的关键创新在于:1) 统一的输入输出格式(ALI和ULR):打破了不同任务和领域之间的壁垒,实现了统一的布局生成建模。2) 间隔量化编码(IQE):有效压缩了输入指令,提高了模型的训练效率和性能。3) 小型LLM的应用:证明了小型LLM在布局生成任务上的潜力,降低了计算成本。
关键设计:ALI包含任务描述、领域信息和布局约束等,采用自然语言描述。ULR包含布局元素的类型和坐标等信息,采用结构化表示。IQE将连续的坐标值量化为离散的间隔,并保留关键的间隔信息。模型采用标准的Transformer架构,使用交叉熵损失函数进行训练。
🖼️ 关键图片
📊 实验亮点
LGGPT使用15亿参数的LLM,在统一布局生成任务上取得了与70亿或1750亿参数模型相当甚至更优的性能。实验结果表明,LGGPT在多个数据集上均取得了领先的性能,证明了其在统一布局生成方面的有效性和效率。
🎯 应用场景
LGGPT可应用于各种需要布局生成的场景,如UI设计、网页设计、文档排版、广告设计等。该研究有助于降低布局生成的成本和门槛,提高设计效率,并促进个性化和智能化的布局生成。
📄 摘要(原文)
We propose LGGPT, an LLM-based model tailored for unified layout generation. First, we propose Arbitrary Layout Instruction (ALI) and Universal Layout Response (ULR) as the uniform I/O template. ALI accommodates arbitrary layout generation task inputs across multiple layout domains, enabling LGGPT to unify both task-generic and domain-generic layout generation hitherto unexplored. Collectively, ALI and ULR boast a succinct structure that forgoes superfluous tokens typically found in existing HTML-based formats, facilitating efficient instruction tuning and boosting unified generation performance. In addition, we propose an Interval Quantization Encoding (IQE) strategy that compresses ALI into a more condensed structure. IQE precisely preserves valid layout clues while eliminating the less informative placeholders, facilitating LGGPT to capture complex and variable layout generation conditions during the unified training process. Experimental results demonstrate that LGGPT achieves superior or on par performance compared to existing methods. Notably, LGGPT strikes a prominent balance between proficiency and efficiency with a compact 1.5B parameter LLM, which beats prior 7B or 175B models even in the most extensive and challenging unified scenario. Furthermore, we underscore the necessity of employing LLMs for unified layout generation and suggest that 1.5B could be an optimal parameter size by comparing LLMs of varying scales. Code is available at https://github.com/NiceRingNode/LGGPT.