CFMS: A Coarse-to-Fine Multimodal Synthesis Framework for Enhanced Tabular Reasoning

📄 arXiv: 2604.10973v1 📥 PDF

作者: Qixian Huang, Hongqiang Lin, Tong Fu, Yingsen Wang, Zhenghui Fu, Qirui Wang, Yiding Sun, Dongxu Zhang

分类: cs.AI, cs.CL

发布日期: 2026-04-13


💡 一句话要点

提出CFMS框架以增强表格推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格推理 多模态合成 符号推理 视觉感知 大型语言模型 知识元组 自动化问答 数据验证

📋 核心要点

  1. 现有方法在处理表格数据时,往往无法有效结合视觉信息与符号推理,导致推理能力受限。
  2. CFMS框架通过粗到细的两阶段设计,首先利用多模态语言模型合成知识元组,再通过符号引擎进行高效推理。
  3. 在WikiTQ和TabFact基准测试中,CFMS展示了优越的准确性,尤其在处理大规模表格时表现出色。

📝 摘要(中文)

表格数据推理是问答和事实验证等任务中的关键能力,要求模型理解自由形式的问题和半结构化的表格。尽管链式思维(CoT)方法引入了推理链,但纯符号方法在整体视觉模式上存在盲点。为此,本文提出了粗到细多模态合成框架(CFMS),这是一个新颖的两阶段范式,分层解耦高层视觉感知与细粒度符号推理。在粗阶段,CFMS利用多模态大型语言模型(MLLMs)一次性合成多视角知识元组,随后作为动态推理图指导细阶段,符号引擎在表格上执行有针对性的高效迭代操作。大量实验表明,CFMS在WikiTQ和TabFact基准上表现出竞争力的准确性,尤其在处理大表格和使用较小主干模型时展现出强大的鲁棒性,验证了其有效性和通用性。

🔬 方法详解

问题定义:本文旨在解决表格数据推理中的视觉信息与符号推理结合不佳的问题。现有方法如链式思维在整体视觉模式上存在盲点,限制了推理的有效性。

核心思路:CFMS框架的核心思路是通过粗到细的两阶段推理过程,首先在粗阶段利用多模态大型语言模型合成多视角知识元组,随后在细阶段通过符号引擎进行针对性的推理操作。这样的设计旨在充分利用视觉信息,同时保持符号推理的灵活性和准确性。

技术框架:CFMS框架分为两个主要阶段:粗阶段和细阶段。在粗阶段,模型通过多模态语言模型生成知识元组;在细阶段,符号引擎根据知识元组进行高效的迭代推理。

关键创新:CFMS的创新点在于其两阶段的设计思路,成功地将高层视觉感知与细粒度符号推理分开,克服了传统方法的局限性。

关键设计:在模型设计中,CFMS采用了多模态大型语言模型进行知识合成,并在细阶段使用符号引擎进行推理,确保了推理过程的高效性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CFMS在WikiTQ和TabFact基准测试中表现出色,尤其在处理大规模表格时,准确性显著提升,验证了其在小型主干模型上的有效性和鲁棒性。

🎯 应用场景

CFMS框架在问答系统、数据验证和信息检索等领域具有广泛的应用潜力。通过增强表格推理能力,该框架能够提升自动化数据分析的准确性和效率,未来可在智能助手和数据驱动决策中发挥重要作用。

📄 摘要(原文)

Reasoning over tabular data is a crucial capability for tasks like question answering and fact verification, as it requires models to comprehend both free-form questions and semi-structured tables. However, while methods like Chain-of-Thought (CoT) introduce reasoning chains, purely symbolic methodes are inherently limited by their blindness to holistic visual patterns. To address this, we propose the Coarse-to-Fine Multimodal Synthesis framework (CFMS), a novel two-stage paradigm that hierarchically decouples high-level visual perception from granular symbolic reasoning. In the Coarse Stage, CFMS leverages the Multimodal Large Language Models (MLLMs) to perform a one-time synthesis of a multi-perspective knowledge tuple. This tuple subsequently serves as a dynamic reasoning map to guide the fine stage, where a symbolic engine executes a targeted and efficient sequence of iterative operations over the table. Extensive experiments on the WikiTQ and TabFact benchmarks demonstrate that CFMS achieves competitive accuracy. The framework exhibits particular robustness when handling large tables and when instantiated with smaller backbone models, validating its effectiveness and generalizability.