AdaParse: An Adaptive Parallel PDF Parsing and Resource Scaling Engine
作者: Carlo Siebenschuh, Kyle Hippe, Ozan Gokdemir, Alexander Brace, Arham Khan, Khalid Hossain, Yadu Babuji, Nicholas Chia, Venkatram Vishwanath, Rick Stevens, Arvind Ramanathan, Ian Foster, Robert Underwood
分类: cs.IR, cs.CL, cs.DC, cs.LG
发布日期: 2025-04-23
备注: This paper has been accepted at the The Eighth Annual Conference on Machine Learning and Systems (MLSys 2025)
🔗 代码/项目: GITHUB
💡 一句话要点
AdaParse:自适应并行PDF解析与资源调度引擎,提升科学文档处理效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: PDF解析 自适应算法 并行计算 资源调度 直接偏好优化 科学文献 数据驱动
📋 核心要点
- 现有PDF解析方法在计算成本和准确性之间存在权衡,难以针对不同文档选择最优解析器。
- AdaParse通过数据驱动的方式,结合人类偏好和资源需求,自适应地为每个PDF文档选择合适的解析器。
- 实验表明,AdaParse在保证准确率的同时,显著提高了PDF解析的吞吐量,加速了大规模语料库的构建。
📝 摘要(中文)
本文提出了一种自适应并行PDF解析与资源调度引擎(AdaParse),旨在解决科学出版物PDF解析中解析器选择的问题。针对不同复杂度的文档,AdaParse采用数据驱动策略,为每个文档分配最合适的解析器。通过引入科学家对解析器输出的偏好,并利用直接偏好优化(DPO)将这些偏好融入AdaParse,使其选择过程与人类判断对齐。AdaParse还考虑了硬件需求和解析器的预测准确性,从而高效地编排计算资源,实现大规模解析。实验表明,与最先进的解析器相比,AdaParse在1000篇科学文档的基准测试集上,吞吐量提高了17倍,同时保持了相当的准确率(提高了0.2%)。AdaParse的高精度和并行可扩展性使其能够解析大规模科学文档语料库,从而支持高质量、万亿token级文本数据集的开发。该实现可在https://github.com/7shoe/AdaParse/ 获取。
🔬 方法详解
问题定义:科学出版物通常以PDF格式发布,从中提取文本用于训练语言模型。现有的PDF解析方法各有优缺点,简单的启发式方法速度快但准确率低,复杂的机器学习方法准确率高但计算成本高。选择合适的解析器是一个挑战,特别是对于大规模文档集,需要权衡计算成本和准确性。
核心思路:AdaParse的核心思路是根据PDF文档的特性,自适应地选择最合适的解析器。它通过学习人类专家对不同解析器输出的偏好,并结合解析器的计算成本和预测准确率,实现高效的资源调度。这种方法避免了对所有文档都使用计算成本最高的解析器,从而提高了整体吞吐量。
技术框架:AdaParse的整体框架包括以下几个主要模块:1) 解析器池:包含多种不同的PDF解析器,涵盖不同复杂度和准确率的算法。2) 偏好学习模块:通过直接偏好优化(DPO)学习人类专家对不同解析器输出的偏好。3) 资源调度模块:根据解析器的计算成本、预测准确率和硬件资源可用性,为每个文档选择最佳解析器并分配计算资源。4) 并行执行引擎:支持大规模并行解析,提高整体吞吐量。
关键创新:AdaParse的关键创新在于其自适应的解析器选择策略和基于人类偏好的优化方法。与传统的固定解析器或简单的启发式选择方法不同,AdaParse能够根据文档的特性和人类专家的反馈,动态地调整解析器选择策略,从而在准确率和吞吐量之间取得更好的平衡。
关键设计:AdaParse使用直接偏好优化(DPO)来学习人类专家对不同解析器输出的偏好。DPO是一种直接优化策略,它避免了传统的奖励建模步骤,直接优化策略模型,使其与人类偏好对齐。此外,AdaParse还考虑了解析器的计算成本和预测准确率,并使用资源调度算法来优化计算资源的分配。具体的参数设置和网络结构在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
AdaParse在包含1000篇科学文档的基准测试集上,与最先进的解析器相比,实现了17倍的吞吐量提升,同时保持了相当的准确率(提高了0.2%)。这表明AdaParse能够在保证解析质量的前提下,显著提高大规模文档解析的效率。
🎯 应用场景
AdaParse可应用于大规模科学文献的自动解析,为自然语言处理、信息检索和知识图谱构建等领域提供高质量的文本数据。它能够加速科学知识的发现和传播,并支持基于文献的智能应用开发。未来,该技术可扩展到其他类型的文档解析,例如法律文件、财务报告等。
📄 摘要(原文)
Language models for scientific tasks are trained on text from scientific publications, most distributed as PDFs that require parsing. PDF parsing approaches range from inexpensive heuristics (for simple documents) to computationally intensive ML-driven systems (for complex or degraded ones). The choice of the "best" parser for a particular document depends on its computational cost and the accuracy of its output. To address these issues, we introduce an Adaptive Parallel PDF Parsing and Resource Scaling Engine (AdaParse), a data-driven strategy for assigning an appropriate parser to each document. We enlist scientists to select preferred parser outputs and incorporate this information through direct preference optimization (DPO) into AdaParse, thereby aligning its selection process with human judgment. AdaParse then incorporates hardware requirements and predicted accuracy of each parser to orchestrate computational resources efficiently for large-scale parsing campaigns. We demonstrate that AdaParse, when compared to state-of-the-art parsers, improves throughput by $17\times$ while still achieving comparable accuracy (0.2 percent better) on a benchmark set of 1000 scientific documents. AdaParse's combination of high accuracy and parallel scalability makes it feasible to parse large-scale scientific document corpora to support the development of high-quality, trillion-token-scale text datasets. The implementation is available at https://github.com/7shoe/AdaParse/