Keep the General, Inject the Specific: Structured Dialogue Fine-Tuning for Knowledge Injection without Catastrophic Forgetting

📄 arXiv: 2505.00029v1 📥 PDF

作者: Yijie Hong, Xiaofei Yin, Xinzhong Wang, Yi Tu, Ya Guo, Sufeng Duan, Weiqiang Wang, Lingyong Fang, Depeng Wang, Huijia Zhu

分类: cs.CL, cs.AI

发布日期: 2025-04-27

备注: 13 pages, 3 figures


💡 一句话要点

提出结构化对话微调SDFT,解决视觉语言模型知识注入中的灾难性遗忘问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 知识注入 灾难性遗忘 结构化对话微调 思维链推理

📋 核心要点

  1. 现有视觉语言模型在知识注入时易发生灾难性遗忘,导致通用能力下降。
  2. 论文提出结构化对话微调(SDFT),通过三阶段对话结构平衡知识注入和能力保持。
  3. 实验表明,SDFT在多个领域有效注入专业知识,同时保留了模型的通用视觉语言能力。

📝 摘要(中文)

大型视觉语言模型(VLM)通过大规模多模态预训练展现了强大的通用能力,但在整合超出其训练分布的特定领域知识时面临显著限制。这些模型面临一个根本困境:直接的适应方法在注入领域特定知识时,常常会引发对基础视觉语言能力的灾难性遗忘。我们提出了一种有效的结构化对话微调(SDFT)方法,该方法有效地注入领域特定知识,同时最大限度地减少灾难性遗忘。借鉴了LLM中的监督微调和文本到图像扩散模型中的主题驱动个性化,我们的方法采用了一个三阶段的对话结构:基础知识保持阶段通过字幕任务加强预训练的视觉语言对齐;对比消歧阶段引入精心设计的反事实示例来维持语义边界;知识专业化阶段通过思维链推理嵌入专业信息。跨多个领域的实验结果证实了SDFT在平衡专业知识获取与通用能力保留方面的有效性。我们的主要贡献包括一个以数据为中心的对话模板,该模板平衡了基础对齐与目标知识集成,一个加权的多轮监督框架,以及跨多种知识类型的全面评估。

🔬 方法详解

问题定义:大型视觉语言模型虽然在通用视觉语言任务上表现出色,但在特定领域知识的注入过程中,容易发生灾难性遗忘,即模型在学习新知识的同时,忘记了预训练阶段获得的通用能力。现有方法难以在知识注入和能力保持之间取得平衡。

核心思路:论文的核心思路是借鉴LLM的微调方法和文本到图像扩散模型的主题驱动个性化,设计一个结构化的对话微调框架,通过多阶段的训练,逐步将领域知识注入模型,同时避免对原有能力的破坏。这种结构化的方法允许模型在不同阶段侧重于不同的目标,从而更好地平衡知识获取和能力保持。

技术框架:SDFT包含三个主要阶段:1) 基础知识保持(Foundation Preservation):使用caption任务,通过视觉-语言对齐来强化预训练的视觉语言能力,防止模型忘记基础知识。2) 对比消歧(Contrastive Disambiguation):引入精心设计的反事实示例,通过对比学习的方式,维护语义边界,避免模型混淆不同概念。3) 知识专业化(Knowledge Specialization):利用思维链推理,引导模型学习和应用专业知识,从而将领域知识嵌入模型。整个框架采用多轮对话的形式,每个阶段对应一个特定的对话模板。

关键创新:SDFT的关键创新在于其结构化的对话微调框架,该框架通过多阶段的训练,将知识注入过程分解为多个可控的步骤,从而更好地平衡知识获取和能力保持。此外,论文还提出了一个以数据为中心的对话模板,该模板能够有效地将基础对齐与目标知识集成。

关键设计:SDFT使用加权的多轮监督框架,在不同的训练阶段,对不同的损失函数赋予不同的权重,从而控制模型在不同阶段的学习重点。例如,在基础知识保持阶段,可以增加caption任务的权重,而在知识专业化阶段,可以增加思维链推理任务的权重。具体的损失函数包括caption loss、对比学习loss和语言模型loss等。对话模板的设计也至关重要,需要根据具体的领域知识进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SDFT在多个领域(具体领域未知)的知识注入任务中表现出色,显著降低了灾难性遗忘的程度,同时保持了模型的通用视觉语言能力。具体的性能数据和对比基线在论文中给出,但摘要中未提及具体数值。SDFT在平衡专业知识获取与通用能力保留方面取得了显著的提升。

🎯 应用场景

该研究成果可广泛应用于需要将专业知识注入视觉语言模型的场景,例如医疗诊断、工业检测、智能客服等。通过SDFT,可以使VLM更好地理解和处理特定领域的视觉信息,提高其在专业领域的应用能力,并降低灾难性遗忘的风险。未来,该方法有望扩展到更多模态和领域,实现更高效的知识注入。

📄 摘要(原文)

Large Vision Language Models have demonstrated impressive versatile capabilities through extensive multimodal pre-training, but face significant limitations when incorporating specialized knowledge domains beyond their training distribution. These models struggle with a fundamental dilemma: direct adaptation approaches that inject domain-specific knowledge often trigger catastrophic forgetting of foundational visual-linguistic abilities. We introduce Structured Dialogue Fine-Tuning (SDFT), an effective approach that effectively injects domain-specific knowledge while minimizing catastrophic forgetting. Drawing inspiration from supervised fine-tuning in LLMs and subject-driven personalization in text-to-image diffusion models, our method employs a three-phase dialogue structure: Foundation Preservation reinforces pre-trained visual-linguistic alignment through caption tasks; Contrastive Disambiguation introduces carefully designed counterfactual examples to maintain semantic boundaries; and Knowledge Specialization embeds specialized information through chain-of-thought reasoning. Experimental results across multiple domains confirm SDFT's effectiveness in balancing specialized knowledge acquisition with general capability retention. Our key contributions include a data-centric dialogue template that balances foundational alignment with targeted knowledge integration, a weighted multi-turn supervision framework, and comprehensive evaluation across diverse knowledge types.