BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks

作者: Juan Rodriguez, Xiangru Jian, Siba Smarak Panigrahi, Tianyu Zhang, Aarash Feizi, Abhay Puri, Akshay Kalkunte, François Savard, Ahmed Masry, Shravan Nayak, Rabiul Awal, Mahsa Massoud, Amirhossein Abaskohi, Zichao Li, Suyuchen Wang, Pierre-André Noël, Mats Leon Richter, Saverio Vadacchino, Shubham Agarwal, Sanket Biswas, Sara Shanian, Ying Zhang, Noah Bolger, Kurt MacDonald, Simon Fauvel, Sathwik Tejaswi, Srinivas Sunkara, Joao Monteiro, Krishnamurthy DJ Dvijotham, Torsten Scholak, Nicolas Chapados, Sepideh Kharagani, Sean Hughes, M. Özsu, Siva Reddy, Marco Pedersoli, Yoshua Bengio, Christopher Pal, Issam Laradji, Spandana Gella, Perouz Taslakian, David Vazquez, Sai Rajeswar

分类: cs.LG, cs.CL

发布日期: 2024-12-05 (更新: 2025-03-17)

备注: The project is hosted at https://bigdocs.github.io

期刊: ICLR 2025 https://openreview.net/forum?id=UTgNFcpk0j

💡 一句话要点

BigDocs: 开放的文档和代码多模态模型训练数据集与基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 文档理解 代码生成 开放数据集 基准测试

📋 核心要点

商业应用中多模态文档理解受限于训练数据不足和许可限制，阻碍了开放研究。
BigDocs通过提供大规模、高质量、开放许可的数据集，促进多模态文档和代码任务的研究。
实验表明，使用BigDocs训练的模型在文档推理和代码生成任务上显著优于GPT-4o。

📝 摘要（中文）

本文介绍了BigDocs-7.5M，一个高质量、开放访问的数据集，包含750万个跨30个任务的多模态文档。该数据集旨在促进文档理解任务，如处理收据、理解工作流程、从文档中提取数据和总结报告，以及需要长结构化输出的代码生成任务。通过高效的数据管理流程，确保数据质量和许可开放性，并强调问责制、责任和透明度。此外，本文还提出了BigDocs-Bench，一个包含10个新任务的基准测试套件，模拟了涉及图形用户界面（GUI）推理和图像代码生成的真实用例。实验表明，使用BigDocs-Bench进行训练，在文档推理和结构化输出任务（如Screenshot2HTML或Image2Latex生成）中，平均性能比闭源GPT-4o提高了高达25.8%。人工评估也显示，经过BigDocs训练的模型输出优于GPT-4o。BigDocs旨在帮助学术界和开源社区利用和改进AI工具，以增强多模态能力和文档推理。

🔬 方法详解

问题定义：现有方法在文档理解和代码生成任务中，由于缺乏大规模、高质量、开放许可的多模态训练数据，导致性能受限，难以满足商业应用的需求。闭源模型如GPT-4o虽然表现出色，但其数据和模型不可访问，限制了研究和定制。

核心思路：BigDocs的核心思路是构建一个大规模、高质量、开放许可的多模态数据集，涵盖文档和代码任务，并提供相应的基准测试，以促进多模态模型在这些领域的应用。通过精心设计的数据收集、清洗和标注流程，确保数据质量和可用性。

技术框架：BigDocs项目包含两个主要组成部分：BigDocs-7.5M数据集和BigDocs-Bench基准测试。BigDocs-7.5M数据集包含750万个多模态文档，涵盖30个任务。BigDocs-Bench基准测试包含10个新任务，涉及GUI推理和图像代码生成等真实用例。整个流程包括数据收集、清洗、标注、基准测试构建和模型训练评估。

关键创新：BigDocs的关键创新在于其大规模、高质量和开放许可的数据集，以及针对真实用例设计的基准测试。与现有数据集相比，BigDocs在规模、任务多样性和数据质量方面具有显著优势。此外，BigDocs强调数据管理的问责制、责任和透明度，确保数据的可靠性和可信度。

关键设计：BigDocs的数据收集和清洗流程包括过滤规则、可追溯的元数据和仔细的内容分析。BigDocs-Bench的基准测试任务设计考虑了真实用例的复杂性和多样性。在模型训练方面，可以使用各种多模态模型架构，并针对具体任务进行优化。具体的参数设置、损失函数和网络结构取决于所选择的模型和任务。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用BigDocs-Bench训练的模型在文档推理和结构化输出任务（如Screenshot2HTML或Image2Latex生成）中，平均性能比闭源GPT-4o提高了高达25.8%。人工评估也显示，经过BigDocs训练的模型输出优于GPT-4o，证明了BigDocs数据集的有效性和价值。

🎯 应用场景

BigDocs数据集和基准测试可广泛应用于文档理解、信息抽取、代码生成、自动化办公等领域。例如，可以用于开发智能文档处理系统，自动提取发票信息、总结报告内容、生成网页代码等。该研究有助于提升AI在处理复杂文档和结构化信息方面的能力，提高工作效率，降低人工成本。

📄 摘要（原文）

Multimodal AI has the potential to significantly enhance document-understanding tasks, such as processing receipts, understanding workflows, extracting data from documents, and summarizing reports. Code generation tasks that require long-structured outputs can also be enhanced by multimodality. Despite this, their use in commercial applications is often limited due to limited access to training data and restrictive licensing, which hinders open access. To address these limitations, we introduce BigDocs-7.5M, a high-quality, open-access dataset comprising 7.5 million multimodal documents across 30 tasks. We use an efficient data curation process to ensure our data is high-quality and license-permissive. Our process emphasizes accountability, responsibility, and transparency through filtering rules, traceable metadata, and careful content analysis. Additionally, we introduce BigDocs-Bench, a benchmark suite with 10 novel tasks where we create datasets that reflect real-world use cases involving reasoning over Graphical User Interfaces (GUI) and code generation from images. Our experiments show that training with BigDocs-Bench improves average performance up to 25.8% over closed-source GPT-4o in document reasoning and structured output tasks such as Screenshot2HTML or Image2Latex generation. Finally, human evaluations showed a preference for outputs from models trained on BigDocs over GPT-4o. This suggests that BigDocs can help both academics and the open-source community utilize and improve AI tools to enhance multimodal capabilities and document reasoning. The project is hosted at https://bigdocs.github.io .

BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理