BabelDOC: Better Layout-Preserving PDF Translation via Intermediate Representation

📄 arXiv: 2605.10845v1 📥 PDF

作者: Qi Yang, Xiangyao Ma, Xiao Wang, Hao Wang, Rui Wang

分类: cs.CV, cs.CL

发布日期: 2026-05-11

备注: ACL 2026 System Demonstration paper. 2 figures


💡 一句话要点

提出BabelDOC框架:通过中间表示(IR)实现高保真布局的PDF文档翻译

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文档翻译 布局保持 中间表示 计算机辅助翻译 多模态文档处理 自适应排版

📋 核心要点

  1. 现有翻译流程难以平衡文本语义处理与PDF复杂布局的保持,导致翻译后文档结构丢失或排版错乱。
  2. BabelDOC通过引入中间表示(IR)将视觉布局元数据与语义内容解耦,实现文档级翻译与精准重排。
  3. 实验表明该框架在布局保真度、视觉美观及术语一致性上显著优于现有基线,且具备高实用价值。

📝 摘要(中文)

随着全球跨语言交流的增加,PDF等视觉丰富文档的语言障碍成为实际瓶颈。现有的文档翻译流程在语言处理与布局保持之间存在矛盾:以文本为中心的计算机辅助翻译(CAT)系统往往丢失结构元数据,而文档解析器侧重于提取,不支持翻译后的忠实重排。本文介绍了BabelDOC,这是一个基于中间表示(IR)的布局保持PDF翻译框架。BabelDOC将视觉布局元数据与语义内容解耦,支持术语提取、跨页上下文处理、术语表约束生成及公式占位等文档级翻译操作。翻译后的内容通过自适应排版引擎重新锚定到原始布局中。在200页的精选基准测试中,结合人工评估与多模态大模型评估显示,BabelDOC在布局保真度、视觉美观度及术语一致性方面优于代表性基线,同时保持了极具竞争力的翻译精度。

🔬 方法详解

问题定义:论文旨在解决PDF文档翻译中“语义翻译”与“布局保持”的冲突。现有CAT系统忽略结构信息,导致翻译后文档排版崩坏;而文档解析工具缺乏对翻译后内容的重排能力,无法实现端到端的文档级翻译。

核心思路:引入中间表示(IR)层,将PDF的视觉布局信息与文本语义内容解耦。通过这种解耦,系统可以在翻译过程中保留结构元数据,并利用专门的排版引擎在翻译后将内容重新锚定回原始布局。

技术框架:框架包含三个核心阶段:首先是文档解析与IR构建,提取文本、布局及公式等元数据;其次是翻译处理阶段,执行术语提取、跨页上下文处理及术语表约束生成;最后是自适应排版引擎,负责将翻译后的文本重新渲染并锚定至原始文档结构中。

关键创新:核心创新在于IR的设计,它作为语义与布局的桥梁,允许在不破坏文档结构的前提下进行复杂的翻译操作,如公式占位符处理和跨页上下文感知,这是传统翻译流水线难以实现的。

关键设计:采用了自适应排版引擎,能够根据翻译后文本的长度变化动态调整布局参数,确保文档在视觉上与原文高度一致,同时支持多模态大模型作为评估器,对翻译质量与布局保真度进行综合打分。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

在200页的精选基准测试中,BabelDOC在布局保真度、视觉美观度及术语一致性方面均显著优于主流基线系统。通过人工评估与多模态大模型(LLM-as-a-judge)的综合验证,证明了其在保持高翻译精度的同时,能有效解决复杂文档翻译中的排版难题,且开源项目已获得超过8.4K的GitHub星标。

🎯 应用场景

BabelDOC适用于学术论文、技术手册、法律合同及商业报告等复杂排版文档的跨语言翻译。其高保真布局能力使其在需要严格遵循原版格式的行业中具有极高价值,未来可集成至办公自动化软件或企业级文档处理平台,显著提升跨境文档处理效率。

📄 摘要(原文)

As global cross-lingual communication intensifies, language barriers in visually rich documents such as PDFs remain a practical bottleneck. Existing document translation pipelines face a tension between linguistic processing and layout preservation: text-oriented Computer-Assisted Translation (CAT) systems often discard structural metadata, while document parsers focus on extraction and do not support faithful re-rendering after translation. We introduce BabelDOC, an Intermediate Representation (IR)-based framework for layout-preserving PDF translation. BabelDOC decouples visual layout metadata from semantic content, enabling document-level translation operations such as terminology extraction, cross-page context handling, glossary-constrained generation, and formula placeholdering. The translated content is then re-anchored to the original layout through an adaptive typesetting engine. Experiments on a curated 200-page benchmark, together with human evaluation and multimodal LLM-as-a-judge evaluation, show that BabelDOC improves layout fidelity, visual aesthetics, and terminology consistency over representative baselines, while maintaining competitive translation precision. The open-source toolkit and its interactive downstream applications are publicly available and have attracted over 8.4K GitHub stars and 17 contributors at the time of writing. A demonstration video is also available.