TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools

📄 arXiv: 2406.03618v3 📥 PDF

作者: Avi Caciularu, Alon Jacovi, Eyal Ben-David, Sasha Goldshtein, Tal Schuster, Jonathan Herzig, Gal Elidan, Amir Globerson

分类: cs.CL

发布日期: 2024-06-05 (更新: 2024-10-14)

备注: Accepted to NeurIPS 2024. Website (https://tact-benchmark.github.io), Huggingface (https://huggingface.co/datasets/google/TACT)


💡 一句话要点

TACT:利用信息抽取工具提升复杂聚合推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 聚合推理 信息抽取 表格生成 少量样本学习

📋 核心要点

  1. 现有大型语言模型在跨文本聚合信息进行复杂推理时存在不足,难以满足实际需求。
  2. 论文提出“IE as a tool”框架,利用信息抽取工具辅助LLM进行表格生成、命令生成和执行。
  3. 实验表明,该框架通过少量样本提示显著提升了LLM在TACT数据集上的性能,优于现有方法。

📝 摘要(中文)

大型语言模型(LLMs)在需要跨文本聚合信息的查询上表现不佳。为了更好地评估这种场景并促进建模工作,我们引入了TACT——通过表格进行文本和计算的数据集,该数据集旨在评估LLMs使用复杂指令进行推理和计算的能力。TACT包含具有挑战性的指令,需要拼接分散在一个或多个文本中的信息,并对这些信息执行复杂的集成以生成答案。我们通过利用现有文本及其相关表格的数据集来构建此数据集。对于每个这样的表格,我们制定新的查询,并收集它们各自的答案。我们证明了所有当代LLMs在这个数据集上的表现都很差,准确率低于38%。为了查明困难并彻底剖析问题,我们分析了模型在三个组件上的性能:表格生成、Pandas命令生成和执行。出乎意料的是,我们发现每个组件都给当前的LLMs带来了巨大的挑战。这些见解促使我们提出了一个重点建模框架,我们称之为IE as a tool。具体来说,我们建议为上述每个步骤添加“工具”,并使用少量样本提示来实现每个这样的工具。这种方法显示出比现有提示技术有所改进,为增强模型在这些任务中的能力提供了一个有希望的方向。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在处理需要跨多个文本聚合信息并进行复杂计算的查询时表现不佳的问题。现有的LLM方法难以有效地从分散的文本中提取相关信息,并进行准确的计算和推理,导致在需要聚合推理的任务中性能较差。

核心思路:论文的核心思路是将信息抽取(IE)作为一种工具,辅助LLM完成复杂聚合推理任务。具体来说,将整个任务分解为表格生成、Pandas命令生成和执行三个子任务,并为每个子任务配备相应的IE工具,利用这些工具来提升LLM的性能。

技术框架:整体框架包含以下几个主要阶段:1) 输入:接收包含多个文本的输入和需要聚合推理的查询。2) 表格生成:利用IE工具从文本中提取相关信息,并将其组织成表格形式。3) Pandas命令生成:利用IE工具生成用于在表格上执行计算和推理的Pandas命令。4) 执行:执行生成的Pandas命令,得到最终的答案。5) 输出:输出最终的答案。

关键创新:论文的关键创新在于将信息抽取工具集成到LLM的推理过程中,通过分解任务并利用专门的工具来处理每个子任务,从而提升了LLM在复杂聚合推理任务中的性能。与现有方法相比,该方法更加模块化,易于调试和改进,并且能够更好地利用外部知识。

关键设计:论文采用少量样本提示(few-shot prompting)来实现每个IE工具。具体来说,为每个工具提供少量的示例输入和输出,然后利用LLM来生成新的输入对应的输出。这种方法能够有效地利用LLM的生成能力,并且不需要大量的训练数据。此外,论文还对表格生成、Pandas命令生成和执行三个子任务进行了详细的分析,并针对每个子任务设计了相应的评估指标。

📊 实验亮点

实验结果表明,现有的LLM在TACT数据集上的准确率低于38%,表明该数据集具有挑战性。通过引入“IE as a tool”框架,并使用少量样本提示,模型性能得到了显著提升,证明了该方法的有效性。具体的性能提升幅度未知,但论文强调了该方法优于现有的提示技术。

🎯 应用场景

该研究成果可应用于金融分析、市场调研、科学研究等领域,帮助用户从海量文本数据中提取关键信息,进行复杂计算和推理,从而做出更明智的决策。未来,该方法有望扩展到更多需要复杂推理和计算的任务中,例如智能问答、知识图谱构建等。

📄 摘要(原文)

Large Language Models (LLMs) often do not perform well on queries that require the aggregation of information across texts. To better evaluate this setting and facilitate modeling efforts, we introduce TACT - Text And Calculations through Tables, a dataset crafted to evaluate LLMs' reasoning and computational abilities using complex instructions. TACT contains challenging instructions that demand stitching information scattered across one or more texts, and performing complex integration on this information to generate the answer. We construct this dataset by leveraging an existing dataset of texts and their associated tables. For each such tables, we formulate new queries, and gather their respective answers. We demonstrate that all contemporary LLMs perform poorly on this dataset, achieving an accuracy below 38%. To pinpoint the difficulties and thoroughly dissect the problem, we analyze model performance across three components: table-generation, Pandas command-generation, and execution. Unexpectedly, we discover that each component presents substantial challenges for current LLMs. These insights lead us to propose a focused modeling framework, which we refer to as IE as a tool. Specifically, we propose to add "tools" for each of the above steps, and implement each such tool with few-shot prompting. This approach shows an improvement over existing prompting techniques, offering a promising direction for enhancing model capabilities in these tasks.