Semantic Triplet Restoration: A Novel Protocol for Hierarchical Table Understanding in Large Language Models
作者: Yibin Zhao, Fangxin Shang, Dingrui Yang, Yuqi Wang
分类: cs.CL
发布日期: 2026-05-29
🔗 代码/项目: GITHUB
💡 一句话要点
提出语义三元组恢复协议,提升大语言模型在层级表格理解任务上的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格理解 语义三元组 大语言模型 问答系统 知识表示
📋 核心要点
- 现有表格问答方法依赖HTML等格式,引入冗余标记,增加模型推理负担。
- 提出STR协议,将表格单元格转化为显式语义三元组,降低模型理解难度。
- 实验表明,STR在减少token的同时,性能与HTML基线持平或有所提升,尤其适用于小模型。
📝 摘要(中文)
表格问答任务需要模型理解由二维布局、合并单元格和层级表头隐式编码的语义关系。现有的方法通常使用HTML或Markdown作为中间表格表示,但这些面向布局的序列化引入了标记开销,并要求大型语言模型从行和列跨度中推断表头-单元格对齐关系。我们提出语义三元组恢复(STR)协议,将每个单元格重写为一个原子事实<项目路径,特征路径,值>,其中项目路径指定行向实体,特征路径指定层级属性,值包含单元格内容。我们还提出了TripletQL,一个轻量级的查询感知路由器,它使用STR为每个问题选择适当的渲染或过滤后的三元组子集。在四个中文和英文表格问答基准测试中,STR匹配或优于基于HTML的基线,同时减少了输入token。对于较小的语言模型和较长的表格上下文,相对优势会增加,这表明显式语义表示在受限的推理预算下特别有用。
🔬 方法详解
问题定义:表格问答任务的关键在于理解表格中蕴含的复杂语义关系,包括二维布局、合并单元格以及层级表头等。现有方法,如基于HTML或Markdown的序列化表示,虽然能够保留表格的结构信息,但引入了大量的标记开销,增加了模型处理的token数量,同时也需要模型从行列跨度中推断表头与单元格之间的对应关系,这对于大型语言模型来说是一个挑战,特别是当计算资源受限时。
核心思路:论文的核心思路是将表格中的每个单元格转化为一个显式的语义三元组,形式为<项目路径,特征路径,值>。其中,“项目路径”明确指定了单元格所属的行向实体,“特征路径”则指明了单元格对应的层级属性,而“值”则包含了单元格的具体内容。通过这种方式,表格的语义信息被直接编码到三元组中,避免了模型从复杂的布局信息中进行推断的需要。
技术框架:整体框架包含两个主要部分:语义三元组恢复(STR)和查询感知路由器(TripletQL)。STR负责将原始表格转换为三元组集合。TripletQL则根据用户提出的问题,从三元组集合中选择相关的子集,并将其输入到大型语言模型中进行问答。TripletQL可以根据问题的类型选择不同的渲染方式,例如直接使用三元组,或者对三元组进行过滤。
关键创新:最重要的创新在于提出了STR协议,它将表格的结构化信息转化为显式的语义三元组表示。与传统的基于布局的序列化方法相比,STR能够更有效地编码表格的语义信息,减少了模型需要处理的token数量,并降低了模型理解表格结构的难度。此外,TripletQL的设计也使得模型能够根据问题的类型选择最合适的表格表示。
关键设计:TripletQL的关键设计在于其查询感知能力。它使用简单的规则或模型来判断问题的类型,并根据问题的类型选择不同的三元组渲染或过滤策略。例如,对于需要聚合信息的查询,TripletQL可能会选择过滤掉不相关的三元组,以减少模型的计算负担。具体的参数设置和损失函数没有在论文中详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,STR协议在四个中英文表格问答基准测试中,性能与基于HTML的基线持平或有所提升,同时显著减少了输入token数量。尤其是在小规模语言模型和长表格上下文中,STR的优势更加明显,这表明显式语义表示对于资源受限的场景具有重要价值。
🎯 应用场景
该研究成果可广泛应用于各种需要表格数据理解的场景,例如智能客服、金融数据分析、医疗报告解读等。通过将表格数据转化为易于理解的语义三元组,可以提升大语言模型在这些领域的应用效果,并降低对模型规模的需求。未来,该方法有望进一步扩展到更复杂的表格结构和更多语言。
📄 摘要(原文)
Table question answering requires models to recover semantic relations encoded implicitly by two-dimensional layout, merged cells, and hierarchical headers. Current pipelines typically use HTML or Markdown as intermediate table representations, but these layout-oriented serializations introduce markup overhead and require large language models to infer header-cell alignments from row and column spans. We propose Semantic Triplet Restoration (STR), a protocol that rewrites each cell as an atomic fact
- , where the item path specifies the row-wise entity, the feature path specifies the hierarchical attribute, and the value contains the cell content. We also present TripletQL, a lightweight query-aware router that uses STR to select an appropriate rendering or filtered subset of triplets for each question. Across four Chinese and English table-QA benchmarks, STR matches or improves upon HTML-based baselines while reducing input tokens. The relative benefit grows for smaller language models and longer table contexts, suggesting that explicit semantic representations are especially useful under constrained inference budgets. Code and data are available at https://github.com/Phoenix-ni/STR.git .