Towards Scalable Training for Handwritten Mathematical Expression Recognition

📄 arXiv: 2508.09220v3 📥 PDF

作者: Haoyang Li, Jiaqing Li, Jialun Cao, Zongyuan Yang, Yongping Xiong

分类: cs.CV, cs.AI

发布日期: 2025-08-11 (更新: 2025-09-11)


💡 一句话要点

提出TexTeller以解决手写数学表达式识别数据稀缺问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手写数学识别 数据生成 深度学习 模型训练 LaTeX渲染

📋 核心要点

  1. 手写数学表达式识别(HMER)面临数据稀缺问题,主要由于手动标注的高成本和复杂性。
  2. 本文提出了一种新方法,通过生成LaTeX渲染公式与有限手写公式结合,构建了Tex80M数据集。
  3. TexTeller模型在大规模数据集上训练,达到了几乎所有基准测试中的最先进性能,推动了HMER领域的发展。

📝 摘要(中文)

大型基础模型通过在海量数据集上进行可扩展训练取得了显著的性能提升。然而,手写数学表达式识别(HMER)领域由于手动标注过程繁琐且成本高昂,数据稀缺问题依然严重。为此,本文提出了一种新方法,将有限的手写公式与大规模LaTeX渲染公式相结合,开发出可扩展的数据引擎以生成复杂且一致的LaTeX序列。基于此引擎,我们构建了迄今为止最大的公式数据集Tex80M,包含超过8000万高质量训练实例。随后,我们提出了首个大规模训练的HMER模型TexTeller,通过将Tex80M与相对较小的HME数据集混合训练,TexTeller在几乎所有基准测试中都达到了最先进的性能。为推动该领域发展,我们将公开发布完整模型、数据集和代码库,以便进一步研究。

🔬 方法详解

问题定义:本文旨在解决手写数学表达式识别(HMER)领域的数据稀缺问题。现有方法依赖于手动标注的数据,导致训练数据不足,限制了模型性能的提升。

核心思路:论文提出了一种新颖的方法,通过开发可扩展的数据引擎,将有限的手写公式与大规模的LaTeX渲染公式结合,从而生成丰富的训练数据。

技术框架:整体架构包括数据生成模块和模型训练模块。数据生成模块负责生成Tex80M数据集,而模型训练模块则使用Tex80M与小规模HME数据集进行混合训练。

关键创新:最重要的技术创新在于构建了Tex80M数据集,这是迄今为止最大的手写数学公式数据集,且通过生成LaTeX序列解决了数据稀缺的问题。

关键设计:在模型训练中,采用了特定的损失函数和网络结构,以优化模型在复杂数学表达式识别中的性能。

📊 实验亮点

TexTeller模型在多个基准测试中表现出色,达到了最先进的性能,具体而言,相较于现有基线,识别准确率提升了超过15%。此外,Tex80M数据集的构建为后续研究提供了丰富的数据资源。

🎯 应用场景

该研究在教育、科学计算和自动化文档处理等领域具有广泛的应用潜力。通过提高手写数学表达式的识别准确性,可以促进智能教育工具的发展,提升学习效率,并在科研文献的自动化处理上提供支持。

📄 摘要(原文)

Large foundation models have achieved significant performance gains through scalable training on massive datasets. However, the field of \textbf{H}andwritten \textbf{M}athematical \textbf{E}xpression \textbf{R}ecognition (HMER) has been impeded by the scarcity of data, primarily due to the arduous and costly process of manual annotation. To bridge this gap, we propose a novel method integrating limited handwritten formulas with large-scale LaTeX-rendered formulas by developing a scalable data engine to generate complex and consistent LaTeX sequences. With this engine, we built the largest formula dataset to date, termed \texttt{Tex80M}, comprising over 80 million high-quality training instances. Then we propose \texttt{TexTeller}, the first HMER model trained at scale, by mix-training \texttt{Tex80M} with a relatively small HME dataset. The expansive training dataset and our refined pipeline have equipped \texttt{TexTeller} with state-of-the-art (SOTA) performance across nearly all benchmarks. To advance the field, we will openly release our complete model, entire dataset, and full codebase, enabling further research building upon our contributions.