Analyzing LLM Instruction Optimization for Tabular Fact Verification
作者: Xiaotang Du, Giwon Hong, Wai-Chung Kwan, Rohit Saxena, Ivan Titov, Pasquale Minervini, Emily Allaway
分类: cs.CL, cs.PL
发布日期: 2026-02-20
💡 一句话要点
针对表格事实核查,提出基于DSPy框架的大语言模型指令优化方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格事实核查 指令优化 大语言模型 DSPy框架 思维链 ReAct 提示工程 模型优化
📋 核心要点
- 现有大语言模型在表格事实核查任务中,缺乏轻量级且模型无关的推理性能提升方法。
- 论文提出基于DSPy框架的指令优化方法,通过优化提示指令来提升大语言模型在表格事实核查中的推理能力。
- 实验结果表明,指令优化能稳定提升验证准确率,MiPROv2优化CoT,SIMBA优化ReAct效果显著,尤其在大模型上。
📝 摘要(中文)
本文针对表格事实核查,对基于DSPy优化框架的指令优化方法进行了首次系统性比较。我们评估了四种开箱即用的提示技术,包括纯文本提示和代码使用:直接预测、思维链(CoT)、使用SQL工具的ReAct以及使用Python执行的CodeAct。我们研究了DSPy框架中的三种优化器——COPRO、MiPROv2和SIMBA——在四个基准测试和三个模型系列上的表现。研究发现,指令优化能够持续提高验证准确性,其中MiPROv2为CoT提供了最稳定的增益,而SIMBA为ReAct代理提供了最大的收益,尤其是在更大的模型规模下。行为分析表明,SIMBA通过应用启发式方法鼓励更直接的推理路径,从而提高CoT推理中的数值比较能力,并帮助避免ReAct代理中不必要的工具调用。在不同的提示技术中,CoT对于表格事实检查仍然有效,尤其是在较小的模型中。虽然使用较大模型构建的ReAct代理可以实现具有竞争力的性能,但它们需要仔细的指令优化。
🔬 方法详解
问题定义:表格事实核查任务旨在验证给定的陈述是否与表格数据一致。现有方法在利用大语言模型时,依赖人工设计的提示词,缺乏自动优化能力,且不同模型的最佳提示策略差异大,需要大量实验才能确定。
核心思路:论文的核心思路是利用DSPy框架自动优化大语言模型的指令,使其更适应表格事实核查任务。通过优化提示词,引导模型更有效地利用自身知识和外部工具(如SQL和Python),从而提高验证准确率。
技术框架:整体框架基于DSPy,包含以下主要模块:1) 提示策略(Prompting Techniques):选择四种提示策略,包括直接预测、CoT、ReAct和CodeAct。2) 优化器(Optimizers):使用DSPy提供的COPRO、MiPROv2和SIMBA三种优化器。3) 评估(Evaluation):在四个表格事实核查基准测试上评估优化后的模型性能。
关键创新:最重要的技术创新点在于将DSPy框架应用于表格事实核查任务,并系统性地比较了不同提示策略和优化器的性能。通过指令优化,可以显著提高大语言模型在表格事实核查中的准确率,而无需修改模型本身。
关键设计:论文的关键设计包括:1) 针对不同提示策略选择合适的优化器,例如MiPROv2优化CoT,SIMBA优化ReAct。2) 通过行为分析,深入理解优化器的工作机制,例如SIMBA通过启发式方法减少不必要的工具调用。3) 在不同模型规模和数据集上进行实验,验证方法的泛化能力。
📊 实验亮点
实验结果表明,指令优化能够持续提高表格事实核查的准确性。MiPROv2优化器为CoT提示策略提供了最稳定的增益,而SIMBA优化器为ReAct代理提供了最大的收益,尤其是在更大的模型规模下。行为分析表明,SIMBA通过应用启发式方法鼓励更直接的推理路径,从而提高数值比较能力,并帮助避免不必要的工具调用。
🎯 应用场景
该研究成果可应用于金融报告审核、医疗数据分析、新闻事实核查等领域,提升数据驱动决策的准确性和效率。通过自动优化提示指令,降低了人工干预成本,使得大语言模型能够更好地服务于表格数据分析任务,具有广泛的应用前景。
📄 摘要(原文)
Instruction optimization provides a lightweight, model-agnostic approach to enhancing the reasoning performance of large language models (LLMs). This paper presents the first systematic comparison of instruction optimization, based on the DSPy optimization framework, for tabular fact verification. We evaluate four out-of-the-box prompting techniques that cover both text-only prompting and code use: direct prediction, Chain-of-Thought (CoT), ReAct with SQL tools, and CodeAct with Python execution. We study three optimizers from the DSPy framework -- COPRO, MiPROv2, and SIMBA -- across four benchmarks and three model families. We find that instruction optimization consistently improves verification accuracy, with MiPROv2 yielding the most stable gains for CoT, and SIMBA providing the largest benefits for ReAct agents, particularly at larger model scales. Behavioral analyses reveal that SIMBA encourages more direct reasoning paths by applying heuristics, thereby improving numerical comparison abilities in CoT reasoning and helping avoid unnecessary tool calls in ReAct agents. Across different prompting techniques, CoT remains effective for tabular fact checking, especially with smaller models. Although ReAct agents built with larger models can achieve competitive performance, they require careful instruction optimization.