CalliMaster: Mastering Page-level Chinese Calligraphy via Layout-guided Spatial Planning

📄 arXiv: 2603.12482v1 📥 PDF

作者: Tianshuo Xu, Tiantian Hong, Zhifei Chen, Fei Chao, Ying-cong Chen

分类: cs.CV

发布日期: 2026-03-12


💡 一句话要点

CalliMaster:通过布局引导的空间规划掌握页面级中文书法生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 页面级书法生成 空间规划 内容合成 多模态扩散Transformer 流动匹配

📋 核心要点

  1. 现有方法在页面级书法合成中难以兼顾字形精度和布局构图,缺乏空间上下文或牺牲笔触细节。
  2. CalliMaster通过解耦空间规划和内容合成,模拟人类“先规划后书写”的认知过程,实现可控的页面级书法生成。
  3. 该框架在生成质量上达到SOTA,并支持语义重规划、文物修复和取证分析等多种下游任务。

📝 摘要(中文)

本文提出CalliMaster,一个统一的可控生成和编辑框架,通过解耦空间规划和内容合成来解决字形精度与布局构图之间的矛盾。受到“先规划后书写”的人类认知过程的启发,我们引入了一个由粗到精的流程(文本→布局→图像)来处理页面级合成的组合复杂性。在单个多模态扩散Transformer中,空间规划阶段首先预测字符边界框以建立全局空间排列。然后,该中间布局作为内容合成阶段的几何提示,其中同一网络利用流动匹配来渲染高保真笔触。除了实现最先进的生成质量外,这种解耦还支持通用的下游功能。通过将布局视为可修改的约束,CalliMaster支持可控的语义重规划:用户可以调整字符大小或重新定位字符,而模型会自动协调周围的空白空间和笔势。此外,我们还展示了该框架在文物修复和取证分析方面的可扩展性,为数字文化遗产提供了一个全面的工具。

🔬 方法详解

问题定义:页面级书法合成需要平衡字形精度和布局构图,现有方法要么缺乏空间上下文信息,导致整体布局不协调;要么为了保证布局而牺牲字体的笔触细节,无法生成高质量的书法作品。因此,如何生成既具有精细笔触又符合整体布局的页面级书法作品是一个挑战。

核心思路:CalliMaster的核心思路是将页面级书法生成过程分解为空间规划和内容合成两个阶段,模拟人类书写时的“先规划后书写”的认知过程。首先进行全局的空间布局规划,确定每个字符的位置和大小;然后,根据规划好的布局,生成每个字符的笔触细节。这种解耦的方式可以有效地平衡字形精度和布局构图。

技术框架:CalliMaster采用一个由粗到精的流程:文本 -> 布局 -> 图像。整个框架基于一个多模态扩散Transformer。首先,空间规划阶段预测字符的边界框,确定全局空间排列。然后,内容合成阶段利用流动匹配(Flow-matching)技术,根据布局信息渲染高保真笔触。

关键创新:CalliMaster的关键创新在于将页面级书法生成解耦为空间规划和内容合成两个阶段,并使用同一个多模态扩散Transformer来完成这两个任务。这种解耦使得模型可以更好地控制生成过程,并支持多种下游任务,如语义重规划。

关键设计:CalliMaster使用多模态扩散Transformer作为核心生成模型。空间规划阶段预测字符边界框,这些边界框作为几何提示输入到内容合成阶段。内容合成阶段使用流动匹配技术,通过学习数据分布之间的连续变换,生成高质量的笔触细节。损失函数的设计旨在平衡空间布局的准确性和笔触细节的真实性。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CalliMaster在页面级书法生成质量上达到了最先进水平。通过将布局作为可修改的约束,该模型支持可控的语义重规划,用户可以调整字符大小或重新定位字符,模型会自动协调周围的空白空间和笔势。此外,该框架还展示了在文物修复和取证分析方面的潜力。

🎯 应用场景

CalliMaster在数字文化遗产领域具有广泛的应用前景,例如书法作品的自动生成、文物修复、笔迹鉴定等。该技术可以用于创建个性化的书法作品,也可以帮助专家分析和修复古代书法作品,甚至可以用于法庭上的笔迹鉴定,具有重要的实际价值和文化意义。

📄 摘要(原文)

Page-level calligraphy synthesis requires balancing glyph precision with layout composition. Existing character models lack spatial context, while page-level methods often compromise brushwork detail. In this paper, we present \textbf{CalliMaster}, a unified framework for controllable generation and editing that resolves this conflict by decoupling spatial planning from content synthesis. Inspired by the human cognitive process of ``planning before writing'', we introduce a coarse-to-fine pipeline \textbf{(Text $\rightarrow$ Layout $\rightarrow$ Image)} to tackle the combinatorial complexity of page-scale synthesis. Operating within a single Multimodal Diffusion Transformer, a spatial planning stage first predicts character bounding boxes to establish the global spatial arrangement. This intermediate layout then serves as a geometric prompt for the content synthesis stage, where the same network utilizes flow-matching to render high-fidelity brushwork. Beyond achieving state-of-the-art generation quality, this disentanglement supports versatile downstream capabilities. By treating the layout as a modifiable constraint, CalliMaster enables controllable semantic re-planning: users can resize or reposition characters while the model automatically harmonizes the surrounding void space and brush momentum. Furthermore, we demonstrate the framework's extensibility to artifact restoration and forensic analysis, providing a comprehensive tool for digital cultural heritage.