Learning to Correct for QA Reasoning with Black-box LLMs

📄 arXiv: 2406.18695v2 📥 PDF

作者: Jaehyung Kim, Dongyoung Kim, Yiming Yang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-06-26 (更新: 2024-10-08)

备注: 22 pages; EMNLP 2024 (long, main)


💡 一句话要点

提出CoBB方法,通过训练适配模型提升黑盒LLM的QA推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 黑盒模型 问答系统 推理能力 适配学习

📋 核心要点

  1. 现有提升黑盒LLM推理能力的方法依赖内部信息或增加计算成本,存在局限性。
  2. CoBB方法训练一个适配模型,将原始LLM的错误推理映射到正确推理,无需访问内部信息。
  3. 实验表明,CoBB在多个QA基准测试中显著提高了推理准确性,优于现有适配方法。

📝 摘要(中文)

本文旨在提升黑盒大型语言模型(LLM)的推理能力,这是一个机器学习领域的重要挑战。现有方法要么依赖于对LLM内部信息的访问(通常不现实),要么显著增加训练和推理成本。为了克服这些局限性,本文提出了一种名为CoBB(Correct for improving QA reasoning of Black-Box LLMs)的新方法。CoBB使用训练好的适配模型,将原始黑盒LLM中不完善的推理过程映射到正确或改进的推理过程。具体来说,适配模型使用一个相对较小的开源LLM进行初始化,并在子采样的训练对集合上进行适配。为了选择具有代表性的正确和错误推理对,我们将数据集构建建模为一个优化问题,旨在最小化采样子集与整个集合之间的统计差异,并通过遗传算法解决该问题。然后,我们通过对比正确和错误推理的似然性来训练适配模型。实验结果表明,与最佳的适配基线相比,CoBB显著提高了各种QA基准上的推理准确性。

🔬 方法详解

问题定义:论文旨在解决黑盒LLM在问答(QA)任务中推理能力不足的问题。现有方法要么需要访问LLM的内部信息(如token概率),这在实际应用中通常不可行;要么需要大量的计算资源进行训练和推理,成本较高。因此,如何在不访问LLM内部信息且不显著增加计算成本的前提下,提升黑盒LLM的推理能力是一个重要的挑战。

核心思路:CoBB的核心思路是训练一个适配模型,该模型能够学习将原始黑盒LLM产生的错误或不完善的推理过程映射到更正或更优的推理过程。通过这种方式,CoBB可以在不改变原始LLM结构和参数的情况下,提升其推理能力。这种方法类似于“纠错”或“精炼”的过程,专注于改进LLM的输出,而不是改变LLM本身。

技术框架:CoBB的整体框架包括以下几个主要阶段:1) 数据集构建:收集原始LLM在QA任务上的推理结果,并标注哪些是正确的,哪些是错误的。2) 子集采样:从整个数据集中选择最具代表性的正确/错误推理对子集,以减少训练成本。这通过一个优化问题来解决,目标是最小化采样子集与整个数据集之间的统计差异,并使用遗传算法进行求解。3) 适配模型训练:使用采样的推理对训练一个seq2seq适配模型,该模型以原始LLM的推理结果作为输入,以正确的推理结果作为目标。训练过程中,对比正确和错误推理的似然性,鼓励模型学习生成正确的推理。4) 推理:在推理阶段,将原始LLM的推理结果输入到适配模型中,得到修正后的推理结果。

关键创新:CoBB的关键创新在于其适配模型的训练方式和数据集构建方法。传统的适配方法通常需要大量的训练数据,而CoBB通过优化采样策略,选择最具代表性的数据子集进行训练,显著降低了训练成本。此外,CoBB通过对比正确和错误推理的似然性来训练适配模型,使得模型能够更有效地学习如何纠正LLM的错误。

关键设计:CoBB的关键设计包括:1) 适配模型结构:使用一个相对较小的开源LLM作为适配模型的初始化,以降低训练成本。2) 采样策略:使用遗传算法解决数据集子集采样优化问题,目标函数是最小化采样子集与整个数据集之间的统计差异(例如,使用KL散度)。3) 损失函数:使用对比损失,鼓励适配模型生成正确的推理结果,同时抑制生成错误的推理结果。具体来说,损失函数可以设计为最大化正确推理的对数似然,同时最小化错误推理的对数似然。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoBB在多个QA基准测试中显著提高了推理准确性。例如,在某些数据集上,CoBB的准确率比最佳基线提高了超过5%。这些结果表明,CoBB是一种有效的提升黑盒LLM推理能力的方法,具有很强的实用价值。

🎯 应用场景

CoBB方法可广泛应用于各种需要利用LLM进行推理的场景,例如智能客服、自动问答系统、知识图谱推理等。该方法尤其适用于那些无法访问LLM内部信息或计算资源有限的场景。通过CoBB,可以显著提升现有黑盒LLM的推理能力,提高系统的准确性和可靠性,从而带来更高的实际应用价值。

📄 摘要(原文)

An open challenge in recent machine learning is about how to improve the reasoning capability of large language models (LLMs) in a black-box setting, i.e., without access to detailed information such as output token probabilities. Existing approaches either rely on accessibility (which is often unrealistic) or involve significantly increased train- and inference-time costs. This paper addresses those limitations or shortcomings by proposing a novel approach, namely CoBB (Correct for improving QA reasoning of Black-Box LLMs). It uses a trained adaptation model to perform a seq2seq mapping from the often-imperfect reasonings of the original black-box LLM to the correct or improved reasonings. Specifically, the adaptation model is initialized with a relatively small open-source LLM and adapted over a collection of sub-sampled training pairs. To select the representative pairs of correct and incorrect reasonings, we formulated the dataset construction as an optimization problem that minimizes the statistical divergence between the sampled subset and the entire collection, and solved it via a genetic algorithm. We then train the adaptation model over the sampled pairs by contrasting the likelihoods of correct and incorrect reasonings. Our experimental results demonstrate that CoBB significantly improves reasoning accuracy across various QA benchmarks, compared to the best-performing adaptation baselines.