Supervised Knowledge Makes Large Language Models Better In-context Learners

作者: Linyi Yang, Shuibai Zhang, Zhuohao Yu, Guangsheng Bao, Yidong Wang, Jindong Wang, Ruochen Xu, Wei Ye, Xing Xie, Weizhu Chen, Yue Zhang

分类: cs.CL, cs.AI

发布日期: 2023-12-26 (更新: 2024-04-11)

备注: Accepted to ICLR 2024

🔗 代码/项目: GITHUB

💡 一句话要点

利用监督知识提升大语言模型上下文学习能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 上下文学习 监督学习 知识增强 泛化性 事实性 判别模型 任务微调

📋 核心要点

现有大语言模型在泛化性和事实性方面存在不足，尤其是在自然语言理解和问答任务中。
论文提出利用特定任务微调的语言模型（SLMs）来提升LLMs的上下文学习能力，从而提高其可靠性。
实验结果表明，增强后的Llama 2和ChatGPT在泛化性和事实性方面均优于原始版本。

📝 摘要（中文）

大型语言模型（LLMs）通过提示工程展现出强大的上下文学习能力。大规模生成模型的最新进展进一步扩展了它们在实际语言应用中的使用。然而，提高LLMs在自然语言理解和问答中的泛化性和事实性的关键挑战仍未得到充分探索。以往的上下文学习研究主要集中在增强模型以符合用户特定指令和质量期望，并避免不期望的输出，但很少有工作探索使用特定任务微调的语言模型（SLMs）来提高LLMs在推理阶段的上下文学习能力。我们的主要贡献是建立一个简单而有效的框架，增强LLMs的可靠性，具体体现在：1）泛化到分布外数据，2）阐明LLMs如何从判别模型中获益，以及3）最小化生成任务中的幻觉。使用我们提出的插件方法，增强版的Llama 2和ChatGPT在泛化性和事实性方面超过了其原始版本。我们提供了一套全面的资源，包括16个精选数据集、提示、模型检查点以及跨9个不同任务的LLM输出。代码和数据已发布在：https://github.com/YangLinyi/Supervised-Knowledge-Makes-Large-Language-Models-Better-In-context-Learners。我们的实证分析揭示了将判别模型融入LLMs的优势，并突出了我们的方法在促进更可靠的LLMs方面的潜力。

🔬 方法详解

问题定义：现有的大语言模型（LLMs）在上下文学习中，虽然可以通过prompt工程来完成任务，但在泛化性和事实性方面存在挑战，尤其是在处理分布外数据和生成任务时容易出现“幻觉”现象。以往的研究主要集中在如何让LLMs更好地遵循用户指令，而忽略了如何利用监督学习得到的知识来提升LLMs的上下文学习能力。

核心思路：论文的核心思路是将特定任务微调的语言模型（SLMs）作为插件，在LLMs的推理阶段提供监督知识，从而提升LLMs的泛化性和事实性。通过SLMs，LLMs可以更好地理解任务，减少“幻觉”，并更好地处理分布外数据。这种方法的核心在于利用判别模型（SLMs）的优势来弥补LLMs在特定任务上的不足。

技术框架：该框架是一个简单的插件式结构。首先，针对特定任务训练一个或多个SLMs。在LLMs进行推理时，将SLMs的输出作为额外的上下文信息输入到LLMs中。具体来说，SLMs可以提供关于输入数据的标签、属性或相关知识，从而帮助LLMs更好地理解输入并生成更准确的输出。整个流程可以看作是LLM+SLM的集成，其中SLM作为知识增强模块。

关键创新：该论文的关键创新在于将监督学习得到的知识（通过SLMs）融入到LLMs的上下文学习过程中。与以往主要关注prompt工程的方法不同，该方法利用了判别模型的优势来提升LLMs的性能。这种方法可以有效地提高LLMs的泛化性和事实性，并减少“幻觉”现象。

关键设计：论文中使用了多个特定任务的数据集来训练SLMs，并探索了不同的SLM架构和训练策略。在将SLMs的输出融入LLMs时，可以使用不同的方法，例如将SLMs的输出直接拼接在输入prompt中，或者使用更复杂的融合机制。论文还详细分析了不同SLM对LLMs性能的影响，并提出了选择合适的SLM的策略。

📊 实验亮点

实验结果表明，通过引入特定任务微调的语言模型（SLMs），增强后的Llama 2和ChatGPT在多个自然语言理解和问答任务上均取得了显著的性能提升。具体来说，在泛化性和事实性方面，增强后的模型超过了其原始版本。论文提供了详细的实验数据和分析，证明了该方法的有效性。

🎯 应用场景

该研究成果可广泛应用于各种需要大语言模型进行自然语言理解和问答的场景，例如智能客服、知识图谱问答、机器翻译、文本摘要等。通过提升LLMs的泛化性和事实性，可以提高这些应用的可靠性和用户体验。未来，该方法还可以扩展到其他类型的任务和模型，例如多模态任务和视觉语言模型。

📄 摘要（原文）

Large Language Models (LLMs) exhibit emerging in-context learning abilities through prompt engineering. The recent progress in large-scale generative models has further expanded their use in real-world language applications. However, the critical challenge of improving the generalizability and factuality of LLMs in natural language understanding and question answering remains under-explored. While previous in-context learning research has focused on enhancing models to adhere to users' specific instructions and quality expectations, and to avoid undesired outputs, little to no work has explored the use of task-Specific fine-tuned Language Models (SLMs) to improve LLMs' in-context learning during the inference stage. Our primary contribution is the establishment of a simple yet effective framework that enhances the reliability of LLMs as it: 1) generalizes out-of-distribution data, 2) elucidates how LLMs benefit from discriminative models, and 3) minimizes hallucinations in generative tasks. Using our proposed plug-in method, enhanced versions of Llama 2 and ChatGPT surpass their original versions regarding generalizability and factuality. We offer a comprehensive suite of resources, including 16 curated datasets, prompts, model checkpoints, and LLM outputs across 9 distinct tasks. The code and data are released at: https://github.com/YangLinyi/Supervised-Knowledge-Makes-Large-Language-Models-Better-In-context-Learners. Our empirical analysis sheds light on the advantages of incorporating discriminative models into LLMs and highlights the potential of our methodology in fostering more reliable LLMs.