Cost-efficient Knowledge-based Question Answering with Large Language Models

📄 arXiv: 2405.17337v1 📥 PDF

作者: Junnan Dong, Qinggang Zhang, Chuang Zhou, Hao Chen, Daochen Zha, Xiao Huang

分类: cs.CL, cs.AI

发布日期: 2024-05-27


💡 一句话要点

提出Coke策略,在知识库问答中利用LLM和小型模型实现精度和成本的优化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识库问答 大型语言模型 多臂老虎机 成本优化 Thompson Sampling

📋 核心要点

  1. 现有KBQA方法难以兼顾LLM的高精度和高成本,以及小型模型在特定领域的知识优势。
  2. Coke策略将KBQA建模为多臂老虎机问题,通过Thompson Sampling估计模型精度,并优化上下文感知的选择策略。
  3. 实验结果表明,Coke策略在节省GPT-4费用的同时,还能提升KBQA的精度,实现了性能的显著提升。

📝 摘要(中文)

知识库问答(KBQA)广泛应用于需要领域知识的场景。大型语言模型(LLM)为KBQA带来了机遇,但其成本显著较高,且预训练过程中缺乏领域特定知识。本文旨在结合LLM和知识图谱(KGM)上的小型模型,以兼顾推理精度和成本节约。然而,由于精度和成本是两个不同的指标,在优化中难以直接结合,并且模型选择也很费力,因为不同的模型擅长不同的知识。为此,本文提出了一种新颖的成本效益型KBQA策略Coke,将其建模为一个定制的多臂老虎机问题,以在有限的预算内最小化对LLM的调用。首先,使用聚类级别的Thompson Sampling来估计KGM或LLM的精度期望。优化了一个上下文感知的策略,以进一步区分受问题语义影响的专家模型。总体决策受到历史失败支出所带来的成本遗憾的约束。大量实验表明Coke的优越性能,它移动了Pareto前沿,在基准数据集上实现了高达20.89%的GPT-4费用节省,同时实现了2.74%的精度提升。

🔬 方法详解

问题定义:论文旨在解决知识库问答(KBQA)中,如何高效利用大型语言模型(LLM)和小型知识图谱模型(KGM)的问题。现有方法要么完全依赖昂贵的LLM,要么精度不足,无法充分利用领域知识。痛点在于如何在有限的预算下,最大化KBQA的准确率,同时降低LLM的调用成本。

核心思路:论文的核心思路是将LLM和KGM视为不同的“臂”,通过多臂老虎机(MAB)算法来学习何时调用LLM,何时调用KGM。通过不断试错,学习每个“臂”的收益(准确率)和成本,从而在预算约束下,最大化整体的准确率。这种方法的核心在于平衡探索(尝试不同的模型)和利用(选择已知表现最好的模型)。

技术框架:Coke策略的整体框架包含以下几个主要模块: 1. 精度期望估计:使用聚类级别的Thompson Sampling来估计KGM和LLM的精度期望,对问题进行聚类,并为每个簇维护一个Thompson Sampling分布。 2. 上下文感知策略优化:优化一个上下文感知的策略,该策略根据问题语义选择合适的专家模型(KGM或LLM)。 3. 成本遗憾约束:通过历史支出和失败记录,对总体决策进行成本遗憾约束,避免过度使用昂贵的LLM。

关键创新:论文的关键创新在于将KBQA问题建模为定制的多臂老虎机问题,并结合了Thompson Sampling和上下文感知策略。与传统的KBQA方法相比,Coke策略能够动态地调整LLM和KGM的使用比例,从而在精度和成本之间取得更好的平衡。此外,上下文感知策略能够根据问题语义选择更合适的模型,进一步提升了准确率。

关键设计: 1. 聚类级别Thompson Sampling:使用聚类算法(具体算法未知)将问题进行聚类,为每个簇维护一个Thompson Sampling分布,用于估计模型的精度期望。 2. 上下文感知策略:使用某种模型(具体模型未知)来学习问题语义和模型选择之间的关系,从而根据问题语义选择更合适的模型。 3. 成本遗憾函数:使用成本遗憾函数来约束总体决策,避免过度使用昂贵的LLM。具体的成本遗憾函数形式未知。

📊 实验亮点

实验结果表明,Coke策略在基准数据集上实现了显著的性能提升。具体来说,Coke策略在节省高达20.89%的GPT-4费用的同时,实现了2.74%的精度提升。这表明Coke策略能够在精度和成本之间取得更好的平衡,为KBQA提供了一种更高效的解决方案。具体的基线模型和数据集信息未知。

🎯 应用场景

该研究成果可应用于各种需要领域知识的问答系统,例如医疗问答、金融问答、法律问答等。通过结合LLM和小型模型,可以在保证问答准确率的同时,显著降低运营成本。该方法还有潜力推广到其他需要平衡精度和成本的任务中,例如信息检索、推荐系统等。

📄 摘要(原文)

Knowledge-based question answering (KBQA) is widely used in many scenarios that necessitate domain knowledge. Large language models (LLMs) bring opportunities to KBQA, while their costs are significantly higher and absence of domain-specific knowledge during pre-training. We are motivated to combine LLMs and prior small models on knowledge graphs (KGMs) for both inferential accuracy and cost saving. However, it remains challenging since accuracy and cost are not readily combined in the optimization as two distinct metrics. It is also laborious for model selection since different models excel in diverse knowledge. To this end, we propose Coke, a novel cost-efficient strategy for KBQA with LLMs, modeled as a tailored multi-armed bandit problem to minimize calls to LLMs within limited budgets. We first formulate the accuracy expectation with a cluster-level Thompson Sampling for either KGMs or LLMs. A context-aware policy is optimized to further distinguish the expert model subject to the question semantics. The overall decision is bounded by the cost regret according to historical expenditure on failures. Extensive experiments showcase the superior performance of Coke, which moves the Pareto frontier with up to 20.89% saving of GPT-4 fees while achieving a 2.74% higher accuracy on the benchmark datasets.