Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition
作者: Yu Li, Jin Jiang, Jianhua Zhu, Shuai Peng, Baole Wei, Yuxuan Zhou, Liangcai Gao
分类: cs.CV
发布日期: 2025-05-29 (更新: 2025-10-25)
备注: Accepted by NeurIPS 2025 as a spotlight
🔗 代码/项目: GITHUB
💡 一句话要点
Uni-MuMER:通过统一多任务微调视觉-语言模型,实现手写数学表达式识别
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 手写数学表达式识别 视觉-语言模型 多任务学习 微调 光学字符识别
📋 核心要点
- 手写数学表达式识别面临符号布局自由和手写风格多样性的挑战,现有方法难以统一整合。
- Uni-MuMER通过微调预训练视觉-语言模型,注入领域知识,实现无需修改架构的统一框架。
- 实验表明,Uni-MuMER在CROHME和HME100K数据集上超越了现有技术,zero-shot性能显著提升。
📝 摘要(中文)
手写数学表达式识别(HMER)由于符号布局的自由性和手写风格的多样性,一直是光学字符识别(OCR)领域的一个挑战。以往的方法通过提出孤立的架构修改来解决问题,难以整合到一个统一的框架中,导致性能瓶颈。而最近预训练视觉-语言模型(VLMs)在跨任务泛化方面表现出强大的能力,为开发统一的解决方案提供了有希望的基础。本文提出了Uni-MuMER,它完全微调VLM用于HMER任务,而不修改其架构,有效地将领域特定知识注入到通用框架中。我们的方法集成了三个数据驱动的任务:用于结构化空间推理的树感知链式思考(Tree-CoT)、用于减少视觉相似字符之间混淆的错误驱动学习(EDL)以及用于提高长表达式识别一致性的符号计数(SC)。在CROHME和HME100K数据集上的实验表明,Uni-MuMER取得了超越现有技术的性能,在zero-shot设置下,超过了最佳轻量级专用模型SSAN 16.31%,超过了性能最佳的VLM Gemini2.5-flash 24.42%。我们的数据集、模型和代码已开源。
🔬 方法详解
问题定义:论文旨在解决手写数学表达式识别(HMER)问题。现有方法通常采用孤立的架构修改,难以整合到一个统一的框架中,导致性能提升受限。此外,这些方法缺乏利用大规模预训练模型的能力,无法充分利用通用视觉和语言知识。
核心思路:论文的核心思路是利用预训练视觉-语言模型(VLM)强大的跨任务泛化能力,通过微调的方式将领域特定知识注入到通用模型中,从而实现高性能的HMER。这种方法避免了从头开始设计复杂架构的需要,并能够充分利用预训练模型的知识。
技术框架:Uni-MuMER的技术框架主要包括以下几个部分:1) 选择一个预训练的视觉-语言模型作为基础模型。2) 设计三个数据驱动的任务:Tree-Aware Chain-of-Thought (Tree-CoT)、Error-Driven Learning (EDL) 和 Symbol Counting (SC)。3) 使用这三个任务的数据对VLM进行微调,使其适应HMER任务。整个过程没有修改VLM的原始架构。
关键创新:Uni-MuMER的关键创新在于其统一的多任务微调框架,以及三个数据驱动任务的设计。Tree-CoT通过引入树结构信息来增强空间推理能力;EDL通过关注易混淆字符来提高识别精度;SC通过约束符号数量来提高长表达式的识别一致性。这种多任务学习的方式能够有效地将领域知识注入到VLM中。
关键设计:在微调过程中,论文采用了标准的反向传播算法和交叉熵损失函数。Tree-CoT任务通过构建表达式的语法树,并将树结构信息编码到输入序列中来实现。EDL任务通过收集易混淆字符对,并设计相应的损失函数来惩罚错误识别。SC任务通过预测表达式中符号的数量,并将其作为辅助任务来提高识别一致性。具体的参数设置和网络结构细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
Uni-MuMER在CROHME和HME100K数据集上取得了显著的性能提升。在zero-shot设置下,Uni-MuMER超过了最佳轻量级专用模型SSAN 16.31%,超过了性能最佳的VLM Gemini2.5-flash 24.42%。这些结果表明,Uni-MuMER能够有效地利用预训练视觉-语言模型的能力,并将其应用于HMER任务。
🎯 应用场景
Uni-MuMER在教育、科研、文档处理等领域具有广泛的应用前景。它可以用于自动批改数学作业、识别科学文献中的公式、将手写笔记转换为可编辑的文本等。该研究的成功将有助于提高数学信息处理的效率和准确性,并为相关领域的研究提供新的思路。
📄 摘要(原文)
Handwritten Mathematical Expression Recognition (HMER) remains a persistent challenge in Optical Character Recognition (OCR) due to the inherent freedom of symbol layouts and variability in handwriting styles. Prior methods have faced performance bottlenecks by proposing isolated architectural modifications, making them difficult to integrate coherently into a unified framework. Meanwhile, recent advances in pretrained vision-language models (VLMs) have demonstrated strong cross-task generalization, offering a promising foundation for developing unified solutions. In this paper, we introduce Uni-MuMER, which fully fine-tunes a VLM for the HMER task without modifying its architecture, effectively injecting domain-specific knowledge into a generalist framework. Our method integrates three data-driven tasks: Tree-Aware Chain-of-Thought (Tree-CoT) for structured spatial reasoning, Error-Driven Learning (EDL) for reducing confusion among visually similar characters, and Symbol Counting (SC) for improving recognition consistency in long expressions. Experiments on the CROHME and HME100K datasets show that Uni-MuMER achieves super state-of-the-art performance, outperforming the best lightweight specialized model SSAN by 16.31\% and the top-performing VLM Gemini2.5-flash by 24.42\% under zero-shot setting. Our datasets, models, and code are open-sourced at: {https://github.com/BFlameSwift/Uni-MuMER