SPA: A Simple but Tough-to-Beat Baseline for Knowledge Injection

📄 arXiv: 2603.22213v1 📥 PDF

作者: Kexian Tang, Jiani Wang, Shaowen Wang, Kaifeng Lyu

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-03-23

🔗 代码/项目: GITHUB


💡 一句话要点

SPA:一种简单但效果极佳的知识注入基线方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识注入 大型语言模型 提示工程 数据增强 合成数据 基线方法 领域知识

📋 核心要点

  1. 现有LLM在特定领域知识覆盖不足,需要知识注入,但现有方法如RL和多阶段提示存在局限性。
  2. SPA通过精心设计的少量提示生成大规模合成数据,用于知识注入,是一种简单有效的基线方法。
  3. 实验表明SPA优于多种基线方法,并揭示了RL方法和多阶段提示在数据规模扩大时的不足。

📝 摘要(中文)

大型语言模型(LLMs)虽然经过海量数据预训练,但在专业、数据稀缺领域中的知识覆盖仍然不完整,这促使人们广泛研究用于知识注入的合成数据生成。我们提出了SPA(Scaling Prompt-engineered Augmentation),一种简单但效果极佳的基线方法,它使用一小组精心设计的提示来生成大规模合成数据,用于知识注入。通过系统比较,我们发现SPA优于几种强大的基线方法。此外,我们还发现了先前方法的两个主要局限性:(1)虽然基于RL的方法可以在小规模上提高基于LLM的数据增强的token效率,但随着数据规模的扩大,它们会遭受多样性崩溃,导致收益递减;(2)虽然多阶段提示可能优于简单的增强方法,但经过仔细的提示调整后,它们的优势可能会消失。我们的结果表明,对于知识注入,仔细的提示设计与直接的大规模增强相结合可能非常有效,我们希望SPA可以作为该领域未来研究的强大基线。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在特定领域知识不足的问题,通过知识注入来提升其在该领域的性能。现有方法,如基于强化学习的数据增强和多阶段提示,虽然在一定程度上有效,但存在token效率低、多样性崩溃以及提示工程复杂等问题。

核心思路:论文的核心思路是利用少量精心设计的提示(Prompt-engineered)生成大规模的合成数据(Scaling Augmentation),从而实现有效的知识注入。这种方法强调提示设计的关键性,并避免了复杂的数据生成流程。

技术框架:SPA方法主要包含两个阶段:首先,人工设计少量高质量的提示模板,这些模板能够引导LLM生成特定领域的知识数据。然后,利用这些提示模板,通过LLM生成大规模的合成数据。最后,将这些合成数据用于训练或微调LLM,从而实现知识注入。

关键创新:SPA的关键创新在于其简洁性和有效性。它摒弃了复杂的强化学习或多阶段提示方法,而是专注于提示的设计和大规模数据的生成。这种方法在知识注入任务上表现出强大的竞争力,并为未来的研究提供了一个强有力的基线。

关键设计:SPA的关键设计在于提示模板的设计。论文强调需要根据具体的知识领域和任务,仔细设计提示模板,以确保生成的数据质量和相关性。此外,论文还探索了不同规模的合成数据对知识注入效果的影响,并发现大规模数据能够带来显著的性能提升。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SPA方法在知识注入任务上优于多种基线方法,包括基于强化学习的数据增强和多阶段提示。论文还发现,随着合成数据规模的扩大,SPA的性能持续提升,表明大规模数据对于知识注入至关重要。此外,论文还揭示了现有方法在数据规模扩大时存在的局限性。

🎯 应用场景

SPA方法可应用于各种知识密集型领域,例如医疗、金融、法律等。通过向LLM注入特定领域的知识,可以提升其在这些领域的问答、推理和决策能力。该方法具有简单易用、效果显著的优点,有望在实际应用中发挥重要作用,并促进LLM在专业领域的应用。

📄 摘要(原文)

While large language models (LLMs) are pretrained on massive amounts of data, their knowledge coverage remains incomplete in specialized, data-scarce domains, motivating extensive efforts to study synthetic data generation for knowledge injection. We propose SPA (Scaling Prompt-engineered Augmentation), a simple but tough-to-beat baseline that uses a small set of carefully designed prompts to generate large-scale synthetic data for knowledge injection. Through systematic comparisons, we find that SPA outperforms several strong baselines. Furthermore, we identify two key limitations of prior approaches: (1) while RL-based methods may improve the token efficiency of LLM-based data augmentation at small scale, they suffer from diversity collapse as data scales, leading to diminishing returns; and (2) while multi-stage prompting may outperform simple augmentation methods, their advantages can disappear after careful prompt tuning. Our results suggest that, for knowledge injection, careful prompt design combined with straightforward large-scale augmentation can be surprisingly effective, and we hope SPA can serve as a strong baseline for future studies in this area. Our code is available at https://github.com/Tangkexian/SPA.