ChartMoE: Mixture of Diversely Aligned Expert Connector for Chart Understanding

📄 arXiv: 2409.03277v3 📥 PDF

作者: Zhengzhuo Xu, Bowen Qu, Yiyan Qi, Sinan Du, Chengjin Xu, Chun Yuan, Jian Guo

分类: cs.AI, cs.CL, cs.CV

发布日期: 2024-09-05 (更新: 2025-03-14)


💡 一句话要点

提出ChartMoE,利用混合专家连接器提升图表理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图表理解 多模态学习 混合专家模型 大语言模型 模态对齐

📋 核心要点

  1. 现有MLLM在图表理解中难以提供准确的数据和可靠的分析,限制了其应用。
  2. ChartMoE使用MoE架构替代线性投影,并通过多样化的对齐任务初始化不同的专家连接器。
  3. 实验表明,ChartMoE显著提升了图表理解的准确率,例如在ChartQA上提升了4.16%。

📝 摘要(中文)

本文提出ChartMoE,旨在提升多模态大语言模型(MLLM)在图表理解方面的能力。现有MLLM在仅基于图表提供可靠数据和分析方面存在困难。ChartMoE采用混合专家(MoE)架构,取代传统线性投影器来弥合模态差距。具体而言,通过不同的对齐任务训练多个线性连接器,作为不同专家的初始参数。此外,引入ChartMoE-Align数据集,包含近100万个图表-表格-JSON-代码四元组,用于执行三个对齐任务(图表-表格/JSON/代码)。结合原始连接器,对不同专家进行多样化初始化,并采用高质量知识学习来进一步优化MoE连接器和LLM参数。实验结果表明,MoE连接器和初始化策略有效,例如,ChartMoE在ChartQA基准测试中将最先进的准确率从80.48%提高到84.64%。

🔬 方法详解

问题定义:现有方法在图表理解任务中,特别是利用多模态大语言模型时,难以保证输出数据和分析的准确性和可靠性。传统的线性投影层不足以有效弥合视觉模态(图表)和语言模态之间的差距,导致信息损失和理解偏差。

核心思路:本文的核心思路是利用混合专家(MoE)架构来增强模态间的连接能力。通过训练多个“专家”连接器,每个专家专注于不同的对齐任务,从而实现更细粒度和更专业的模态特征映射。这种方法旨在克服单一线性投影的局限性,提升模型对图表信息的理解和推理能力。

技术框架:ChartMoE的核心框架包括以下几个主要模块:1) 多样化专家初始化:使用多个线性连接器,每个连接器通过不同的对齐任务(例如图表-表格,图表-JSON,图表-代码)进行预训练。这些预训练的连接器作为MoE中不同专家的初始参数。2) MoE连接器:将传统的线性投影层替换为MoE层,MoE层由多个专家连接器和一个门控网络组成。门控网络根据输入特征动态地选择激活哪些专家。3) 知识学习:在ChartMoE-Align数据集上进行高质量的知识学习,进一步优化MoE连接器和LLM的参数。

关键创新:最重要的技术创新点在于使用MoE架构来连接视觉和语言模态,并采用多样化的对齐任务来初始化不同的专家。与传统的单一线性投影相比,MoE能够学习到更复杂和细粒度的模态间关系。此外,ChartMoE-Align数据集的构建也为模型的训练提供了高质量的数据支持。

关键设计:ChartMoE的关键设计包括:1) ChartMoE-Align数据集:包含近100万个图表-表格-JSON-代码四元组,用于进行图表与表格、JSON和代码的对齐训练。2) 专家数量:具体专家数量未知,但通过实验验证了MoE架构的有效性。3) 门控网络:门控网络的具体结构未知,但其作用是根据输入特征动态选择激活哪些专家。4) 损失函数:损失函数的具体形式未知,但目标是优化MoE连接器和LLM参数,提升图表理解的准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ChartMoE在ChartQA基准测试中取得了显著的性能提升,将准确率从之前的80.48%提高到84.64%,超过了现有最先进的方法。这表明MoE连接器和多样化的专家初始化策略能够有效提升图表理解能力。ChartMoE-Align数据集的贡献也为该领域的进一步研究提供了宝贵资源。

🎯 应用场景

ChartMoE在自动图表理解领域具有广泛的应用前景,可用于文档解析、信息检索、数据分析报告生成等场景。该技术能够帮助用户更高效地理解图表信息,并从中提取有价值的知识。未来,ChartMoE有望应用于智能客服、金融分析、教育等领域,提升智能化水平。

📄 摘要(原文)

Automatic chart understanding is crucial for content comprehension and document parsing. Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in chart understanding through domain-specific alignment and fine-tuning. However, current MLLMs still struggle to provide faithful data and reliable analysis only based on charts. To address it, we propose ChartMoE, which employs the Mixture of Expert (MoE) architecture to replace the traditional linear projector to bridge the modality gap. Specifically, we train several linear connectors through distinct alignment tasks, which are utilized as the foundational initialization parameters for different experts. Additionally, we introduce ChartMoE-Align, a dataset with nearly 1 million chart-table-JSON-code quadruples to conduct three alignment tasks (chart-table/JSON/code). Combined with the vanilla connector, we initialize different experts diversely and adopt high-quality knowledge learning to further refine the MoE connector and LLM parameters. Extensive experiments demonstrate the effectiveness of the MoE connector and our initialization strategy, e.g., ChartMoE improves the accuracy of the previous state-of-the-art from 80.48\% to 84.64\% on the ChartQA benchmark.