SPA: A Simple but Tough-to-Beat Baseline for Knowledge Injection

作者: Kexian Tang, Jiani Wang, Shaowen Wang, Kaifeng Lyu

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-03-23

🔗 代码/项目: GITHUB

💡 一句话要点

SPA：一种简单但效果极佳的知识注入基线方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 知识注入 大型语言模型 提示工程 数据增强 合成数据 基线方法 领域知识

📋 核心要点

现有LLM在特定领域知识覆盖不足，需要知识注入，但现有方法如RL和多阶段提示存在局限性。
SPA通过精心设计的少量提示生成大规模合成数据，用于知识注入，是一种简单有效的基线方法。
实验表明SPA优于多种基线方法，并揭示了RL方法和多阶段提示在数据规模扩大时的不足。

📝 摘要（中文）

大型语言模型（LLMs）虽然经过海量数据预训练，但在专业、数据稀缺领域中的知识覆盖仍然不完整，这促使人们广泛研究用于知识注入的合成数据生成。我们提出了SPA（Scaling Prompt-engineered Augmentation），一种简单但效果极佳的基线方法，它使用一小组精心设计的提示来生成大规模合成数据，用于知识注入。通过系统比较，我们发现SPA优于几种强大的基线方法。此外，我们还发现了先前方法的两个主要局限性：（1）虽然基于RL的方法可以在小规模上提高基于LLM的数据增强的token效率，但随着数据规模的扩大，它们会遭受多样性崩溃，导致收益递减；（2）虽然多阶段提示可能优于简单的增强方法，但经过仔细的提示调整后，它们的优势可能会消失。我们的结果表明，对于知识注入，仔细的提示设计与直接的大规模增强相结合可能非常有效，我们希望SPA可以作为该领域未来研究的强大基线。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在特定领域知识不足的问题，通过知识注入来提升其在该领域的性能。现有方法，如基于强化学习的数据增强和多阶段提示，虽然在一定程度上有效，但存在token效率低、多样性崩溃以及提示工程复杂等问题。

核心思路：论文的核心思路是利用少量精心设计的提示（Prompt-engineered）生成大规模的合成数据（Scaling Augmentation），从而实现有效的知识注入。这种方法强调提示设计的关键性，并避免了复杂的数据生成流程。

技术框架：SPA方法主要包含两个阶段：首先，人工设计少量高质量的提示模板，这些模板能够引导LLM生成特定领域的知识数据。然后，利用这些提示模板，通过LLM生成大规模的合成数据。最后，将这些合成数据用于训练或微调LLM，从而实现知识注入。

关键创新：SPA的关键创新在于其简洁性和有效性。它摒弃了复杂的强化学习或多阶段提示方法，而是专注于提示的设计和大规模数据的生成。这种方法在知识注入任务上表现出强大的竞争力，并为未来的研究提供了一个强有力的基线。

关键设计：SPA的关键设计在于提示模板的设计。论文强调需要根据具体的知识领域和任务，仔细设计提示模板，以确保生成的数据质量和相关性。此外，论文还探索了不同规模的合成数据对知识注入效果的影响，并发现大规模数据能够带来显著的性能提升。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SPA方法在知识注入任务上优于多种基线方法，包括基于强化学习的数据增强和多阶段提示。论文还发现，随着合成数据规模的扩大，SPA的性能持续提升，表明大规模数据对于知识注入至关重要。此外，论文还揭示了现有方法在数据规模扩大时存在的局限性。

🎯 应用场景

SPA方法可应用于各种知识密集型领域，例如医疗、金融、法律等。通过向LLM注入特定领域的知识，可以提升其在这些领域的问答、推理和决策能力。该方法具有简单易用、效果显著的优点，有望在实际应用中发挥重要作用，并促进LLM在专业领域的应用。

📄 摘要（原文）

While large language models (LLMs) are pretrained on massive amounts of data, their knowledge coverage remains incomplete in specialized, data-scarce domains, motivating extensive efforts to study synthetic data generation for knowledge injection. We propose SPA (Scaling Prompt-engineered Augmentation), a simple but tough-to-beat baseline that uses a small set of carefully designed prompts to generate large-scale synthetic data for knowledge injection. Through systematic comparisons, we find that SPA outperforms several strong baselines. Furthermore, we identify two key limitations of prior approaches: (1) while RL-based methods may improve the token efficiency of LLM-based data augmentation at small scale, they suffer from diversity collapse as data scales, leading to diminishing returns; and (2) while multi-stage prompting may outperform simple augmentation methods, their advantages can disappear after careful prompt tuning. Our results suggest that, for knowledge injection, careful prompt design combined with straightforward large-scale augmentation can be surprisingly effective, and we hope SPA can serve as a strong baseline for future studies in this area. Our code is available at https://github.com/Tangkexian/SPA.

SPA: A Simple but Tough-to-Beat Baseline for Knowledge Injection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理