Orthogonal Hierarchical Decomposition for Structure-Aware Table Understanding with Large Language Models

📄 arXiv: 2602.01969v1 📥 PDF

作者: Bin Cao, Huixian Lu, Chenwen Ma, Ting Wang, Ruizhe Li, Jing Fan

分类: cs.CL, cs.IR

发布日期: 2026-02-02

备注: Work in process


💡 一句话要点

提出正交分层分解框架,提升LLM对复杂表格的理解与推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格理解 大型语言模型 层级结构 正交分解 语义表示

📋 核心要点

  1. 现有表格理解方法难以显式捕捉复杂表格的层级结构和跨维度依赖,导致结构语义与文本表示错位。
  2. OHD框架通过正交树归纳方法,将表格分解为行列树,并利用双路径关联协议重建单元格的语义沿袭。
  3. 实验结果表明,OHD在AITQA和HiTab等复杂表格问答基准测试中,性能优于现有方法。

📝 摘要(中文)

针对大型语言模型(LLMs)在理解和推理复杂表格(具有多级表头、合并单元格和异构布局)时面临的挑战,本文提出了一种正交分层分解(OHD)框架,旨在构建保留结构的复杂表格输入表示。OHD引入了一种基于空间-语义共约束的正交树归纳(OTI)方法,将不规则表格分解为列树和行树,分别捕获垂直和水平的分层依赖关系。在此基础上,设计了一种双路径关联协议,以对称地重建每个单元格的语义沿袭,并结合LLM作为语义仲裁器来对齐多级语义信息。在两个复杂表格问答基准测试AITQA和HiTab上评估了OHD框架,实验结果表明,OHD在多个评估指标上始终优于现有的表示范式。

🔬 方法详解

问题定义:现有方法,如表格线性化或归一化网格建模,在处理具有多级表头、合并单元格和异构布局的复杂表格时,难以有效捕捉表格的层级结构和跨维度依赖关系。这导致大型语言模型在理解和推理这些表格时,结构语义与文本表示之间存在错位,影响了问答等任务的性能。

核心思路:本文的核心思路是将复杂表格分解为两个正交的树结构:列树和行树。列树捕捉表格的垂直层级依赖关系,行树捕捉表格的水平层级依赖关系。通过这种正交分解,可以更清晰地表示表格的结构信息。然后,利用双路径关联协议,重建每个单元格的语义沿袭,并使用大型语言模型作为语义仲裁器,对齐多级语义信息,从而提升LLM对表格的理解能力。

技术框架:OHD框架主要包含两个阶段:正交树归纳(OTI)和双路径关联。首先,OTI方法基于空间-语义共约束,将表格分解为列树和行树。然后,双路径关联协议利用这两个树结构,对称地重建每个单元格的语义沿袭。最后,将重建的语义信息输入到大型语言模型中,由LLM进行语义仲裁和推理。

关键创新:最重要的技术创新点是正交树归纳(OTI)方法。与传统的表格表示方法不同,OTI方法能够显式地捕捉表格的层级结构,并将其表示为两个正交的树结构。这种表示方法更符合表格的自然结构,有助于LLM更好地理解表格的语义信息。

关键设计:OTI方法中的空间-语义共约束是关键设计之一。该约束利用单元格的空间位置关系和语义相似性,来指导树结构的构建。双路径关联协议的设计也至关重要,它确保了每个单元格的语义沿袭能够被完整地重建。此外,选择合适的LLM作为语义仲裁器,并设计合适的输入格式,也是影响性能的关键因素。具体的参数设置和损失函数等技术细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,OHD框架在AITQA和HiTab两个复杂表格问答基准测试中,显著优于现有的表示范式。具体而言,OHD在多个评估指标上都取得了最佳性能,证明了其有效性。具体的提升幅度在论文中进行了详细的量化分析(未知)。

🎯 应用场景

该研究成果可应用于各种需要处理复杂表格的场景,例如金融报告分析、医学数据挖掘、知识图谱构建等。通过提升LLM对表格的理解能力,可以实现更智能的表格问答、数据提取和信息检索,具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要(原文)

Complex tables with multi-level headers, merged cells and heterogeneous layouts pose persistent challenges for LLMs in both understanding and reasoning. Existing approaches typically rely on table linearization or normalized grid modeling. However, these representations struggle to explicitly capture hierarchical structures and cross-dimensional dependencies, which can lead to misalignment between structural semantics and textual representations for non-standard tables. To address this issue, we propose an Orthogonal Hierarchical Decomposition (OHD) framework that constructs structure-preserving input representations of complex tables for LLMs. OHD introduces an Orthogonal Tree Induction (OTI) method based on spatial--semantic co-constraints, which decomposes irregular tables into a column tree and a row tree to capture vertical and horizontal hierarchical dependencies, respectively. Building on this representation, we design a dual-pathway association protocol to symmetrically reconstruct semantic lineage of each cell, and incorporate an LLM as a semantic arbitrator to align multi-level semantic information. We evaluate OHD framework on two complex table question answering benchmarks, AITQA and HiTab. Experimental results show that OHD consistently outperforms existing representation paradigms across multiple evaluation metrics.