Teaching Smaller Language Models To Generalise To Unseen Compositional Questions (Full Thesis)

📄 arXiv: 2411.16985v1 📥 PDF

作者: Tim Hartill

分类: cs.CL, cs.AI

发布日期: 2024-11-25


💡 一句话要点

提出检索增强训练数据集(RATD)和知识融合方法,提升小模型在复杂推理问答上的泛化能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 检索增强学习 知识融合 推理问答 泛化能力

📋 核心要点

  1. 现有大型语言模型虽然强大,但在资源受限场景下部署成本高昂,且泛化能力仍有不足。
  2. 论文提出检索增强训练数据集(RATD)和知识融合方法,提升小型推理模型在未见问题上的泛化能力。
  3. 实验表明,RATD显著提升模型性能,结合多个知识源能进一步提高模型在复杂推理问答上的表现。

📝 摘要(中文)

预训练的大型语言模型(LLM)能够回答训练期间不太可能遇到的问题。然而,在推理系统的广泛领域中存在着各种潜在的应用,并且诸如延迟、成本、可用计算资源和互联网连接等因素在确定合适的方法时是相关的。我们考虑这样一种情况:在推理时可以使用一些本地计算能力,但没有互联网连接。与通用LLM类似,我们假设我们的小型推理模型可能会被问到来自未知分布的任意问题,因此我们专注于在未见过的环境中进行评估。我们通过灌输一种对检索到的上下文进行推理的能力来训练我们的模型回答各种问题。我们从两个知识来源获取上下文:一个使用具有新颖扩展的多跳密集检索系统查询的维基百科语料库,以及从一个针对在较低资源环境中运行进行优化的大型语言模型生成的理由。

🔬 方法详解

问题定义:论文旨在解决小型语言模型在资源受限环境下,对未见过的组合型问题进行有效推理的难题。现有方法要么依赖大型模型,计算成本高昂;要么泛化能力不足,难以应对复杂问题。

核心思路:论文的核心思路是通过检索增强训练和知识融合,使小型模型能够利用外部知识进行推理,从而提高其泛化能力。具体而言,模型通过检索相关上下文和理由,并学习如何有效地利用这些信息来回答问题。

技术框架:整体框架包含以下几个主要模块:1) 多跳密集检索系统,用于从维基百科语料库中检索相关上下文;2) 大型语言模型,用于生成推理理由;3) 推理模型,即待训练的小型语言模型;4) 理由排序模型,用于评估检索到的上下文和生成的理由的相关性和真实性。训练过程包括使用检索增强训练数据集(RATD)训练推理模型,并使用理由排序模型对上下文和理由进行排序,最终将排序后的信息融合到推理模型中。

关键创新:论文的关键创新在于:1) 提出了检索增强训练数据集(RATD),该数据集包含检索到的上下文和生成的理由,用于训练推理模型;2) 提出了理由排序模型,用于评估上下文和理由的相关性和真实性,从而实现知识融合;3) 提出了结合检索上下文和生成理由的知识融合方法,进一步提升了模型的性能。

关键设计:RATD数据集的构建方式未知。理由排序模型的设计细节未知。损失函数和网络结构等技术细节也未在摘要中提及。

🖼️ 关键图片

img_0

📊 实验亮点

论文通过实验证明,提出的检索增强训练数据集(RATD)能够显著提升小型推理模型在未见问题上的性能。此外,结合检索到的上下文和生成的理由,能够进一步提高模型的准确率。具体的性能提升数据未知,需要参考论文全文。

🎯 应用场景

该研究成果可应用于资源受限的边缘计算设备,例如智能家居、可穿戴设备等,实现本地化的问答和推理能力。此外,该方法还可以用于构建低成本的智能客服系统,提高客户服务的效率和质量。未来,该研究有望推动小型语言模型在更多实际场景中的应用。

📄 摘要(原文)

Pretrained large Language Models (LLMs) are able to answer questions that are unlikely to have been encountered during training. However a diversity of potential applications exist in the broad domain of reasoning systems and considerations such as latency, cost, available compute resource and internet connectivity are relevant in determining an appropriate approach. We consider the setting where some local compute capacity is available at inference time but internet connectivity is not. Similar to a general-purpose LLM, we assume that our much smaller Reasoning Models may be asked arbitrary questions from unknown distributions, so we focus on evaluation in an unseen setting. We train our models to answer diverse questions by instilling an ability to reason over a retrieved context. We acquire context from two knowledge sources; a Wikipedia corpus queried using a multi-hop dense retrieval system with novel extensions, and from rationales generated from a larger Language Model optimised to run in a lower resource environment. Our main contributions: We propose novel methods to show that our model is capable of answering contextualised questions without memorisation. We establish a comprehensive set of baseline results on unseen evaluation datasets. We show that the addition of novel retrieval-augmented training datasets (RATD) to the training regime of the Reasoning Model significantly improves results. We demonstrate further significant improvement through the application of methods for combining knowledge from two sources. The first method (RR) involves training a novel Rationale Ranking model to score both generated rationales and retrieved contexts with respect to relevance and truthfulness. We use the scores to derive combined contexts. We also show that utilising the RATD datasets enables our model to become proficient at utilising combined noisy contexts.