AnyDoc: Enhancing Document Generation via Large-Scale HTML/CSS Data Synthesis and Height-Aware Reinforcement Optimization

📄 arXiv: 2603.25118v1 📥 PDF

作者: Jiawei Lin, Wanrong Zhu, Vlad I Morariu, Christopher Tensmeyer

分类: cs.CV

发布日期: 2026-03-26

备注: CVPR 2026 Main Conference


💡 一句话要点

AnyDoc:通过大规模HTML/CSS数据合成与高度感知强化优化增强文档生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文档生成 HTML/CSS 数据合成 多模态学习 强化学习 高度感知 大型语言模型 内容溢出

📋 核心要点

  1. 现有手工文档数据集规模有限,难以覆盖多样化的文档类型和样式,限制了文档生成模型的效果。
  2. AnyDoc通过自动合成HTML/CSS文档,构建大规模数据集DocHTML,并利用高度感知强化学习优化模型,解决内容溢出问题。
  3. 实验结果表明,AnyDoc在多个文档生成任务上,显著优于通用多模态大语言模型和特定任务的基线模型。

📝 摘要(中文)

本文提出AnyDoc框架,旨在统一处理多种文档类别的生成任务,所有文档均以HTML/CSS格式表示。为克服现有文档数据集覆盖范围和规模的限制,AnyDoc首先建立了一个可扩展的数据合成流程,以自动生成HTML/CSS文档,由此产生了DocHTML数据集,包含265,206个文档样本,涵盖111个类别和32种不同的样式。此外,所有文档都配备了全面的元数据,包括设计意图、HTML/CSS源代码、视觉资源和渲染截图。基于该数据集,AnyDoc微调多模态大型语言模型(MLLM),以实现三个实际的文档生成任务:意图到文档、文档反渲染和元素到文档。为了解决微调过程中观察到的内容溢出问题,AnyDoc进一步结合了高度感知强化学习(HARL)后训练程序。通过定义基于预测文档高度与目标文档高度之间差异的奖励函数,在HARL期间惩罚并逐渐减轻溢出,从而提高整体性能。定性和定量实验表明,AnyDoc在所有三个任务中均优于通用MLLM和特定任务的基线。

🔬 方法详解

问题定义:论文旨在解决文档生成任务中,现有数据集规模小、覆盖范围有限的问题,以及由此导致的模型在生成长文档时容易出现内容溢出的问题。现有方法依赖于人工标注的数据集,成本高昂且难以扩展,同时缺乏对文档高度的有效控制,导致生成的内容超出预定范围。

核心思路:论文的核心思路是利用数据合成技术自动生成大规模的HTML/CSS文档数据集,并结合高度感知强化学习来优化生成模型,从而提高文档生成质量和控制文档高度。通过数据合成,可以低成本地获取大量多样化的训练数据;通过强化学习,可以引导模型生成符合预期高度的文档。

技术框架:AnyDoc框架主要包含两个阶段:数据合成阶段和模型训练阶段。在数据合成阶段,AnyDoc建立了一个可扩展的流程,自动生成包含设计意图、HTML/CSS代码、视觉资源和渲染截图的DocHTML数据集。在模型训练阶段,AnyDoc首先在DocHTML数据集上微调多模态大型语言模型,然后使用高度感知强化学习(HARL)进行后训练,以优化模型生成文档的高度。

关键创新:论文的关键创新在于:1) 提出了一个可扩展的HTML/CSS文档数据合成流程,能够自动生成大规模、多样化的文档数据集;2) 引入了高度感知强化学习(HARL)方法,通过奖励函数来惩罚内容溢出,从而有效控制生成文档的高度。

关键设计:在数据合成阶段,论文设计了111个文档类别和32种不同的样式,以保证数据集的多样性。在强化学习阶段,论文定义了一个基于预测文档高度与目标文档高度之间差异的奖励函数,用于指导模型的训练。具体来说,奖励函数会惩罚预测高度超过目标高度的情况,从而鼓励模型生成符合预期高度的文档。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AnyDoc在三个文档生成任务(意图到文档、文档反渲染和元素到文档)上均取得了显著的性能提升。与通用多模态大语言模型和特定任务的基线模型相比,AnyDoc在各项指标上均表现出更优的性能,证明了其有效性。尤其是在控制文档高度方面,HARL方法能够有效减少内容溢出,提高生成文档的质量。

🎯 应用场景

AnyDoc框架具有广泛的应用前景,可用于自动化文档生成、网页设计、内容创作等领域。例如,可以根据用户意图自动生成网页、报告、简历等文档,提高工作效率。此外,该研究还可以促进多模态大语言模型在文档处理领域的应用,推动人工智能技术的发展。

📄 摘要(原文)

Document generation has gained growing attention in the field of AI-driven content creation. In this work, we push its boundaries by introducing AnyDoc, a framework capable of handling multiple generation tasks across a wide spectrum of document categories, all represented in a unified HTML/CSS format. To overcome the limited coverage and scale of existing human-crafted document datasets, AnyDoc first establishes a scalable data synthesis pipeline to automatically generate documents in HTML/CSS form. This pipeline yields DocHTML, a large-scale dataset containing 265,206 document samples, while spanning 111 categories and 32 distinct styles. Additionally, all documents are equipped with comprehensive metadata, including design intentions, HTML/CSS source code, visual assets, and rendered screenshots. Building on the curated dataset, AnyDoc fine-tunes multi-modal large language models (MLLMs) to achieve three practical document generation tasks: intention-to-document, document derendering, and element-to-document. To address the content overflow issue observed during fine-tuning, AnyDoc further incorporates a height-aware reinforcement learning (HARL) post-training procedure. By defining a reward function based on the difference between predicted and target document heights, overflow is penalized and gradually mitigated during HARL, thereby enhancing overall performance. Qualitative and quantitative experiments demonstrate that AnyDoc outperforms both general-purpose MLLMs and task-specific baselines across all three tasks.