Keep the General, Inject the Specific: Structured Dialogue Fine-Tuning for Knowledge Injection without Catastrophic Forgetting

作者: Yijie Hong, Xiaofei Yin, Xinzhong Wang, Yi Tu, Ya Guo, Sufeng Duan, Weiqiang Wang, Lingyong Fang, Depeng Wang, Huijia Zhu

分类: cs.CL, cs.AI

发布日期: 2025-04-27

备注: 13 pages, 3 figures

💡 一句话要点

提出结构化对话微调SDFT，解决视觉语言模型知识注入中的灾难性遗忘问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 知识注入 灾难性遗忘 结构化对话微调 思维链推理

📋 核心要点

现有视觉语言模型在知识注入时易发生灾难性遗忘，导致通用能力下降。
论文提出结构化对话微调（SDFT），通过三阶段对话结构平衡知识注入和能力保持。
实验表明，SDFT在多个领域有效注入专业知识，同时保留了模型的通用视觉语言能力。

📝 摘要（中文）

大型视觉语言模型（VLM）通过大规模多模态预训练展现了强大的通用能力，但在整合超出其训练分布的特定领域知识时面临显著限制。这些模型面临一个根本困境：直接的适应方法在注入领域特定知识时，常常会引发对基础视觉语言能力的灾难性遗忘。我们提出了一种有效的结构化对话微调（SDFT）方法，该方法有效地注入领域特定知识，同时最大限度地减少灾难性遗忘。借鉴了LLM中的监督微调和文本到图像扩散模型中的主题驱动个性化，我们的方法采用了一个三阶段的对话结构：基础知识保持阶段通过字幕任务加强预训练的视觉语言对齐；对比消歧阶段引入精心设计的反事实示例来维持语义边界；知识专业化阶段通过思维链推理嵌入专业信息。跨多个领域的实验结果证实了SDFT在平衡专业知识获取与通用能力保留方面的有效性。我们的主要贡献包括一个以数据为中心的对话模板，该模板平衡了基础对齐与目标知识集成，一个加权的多轮监督框架，以及跨多种知识类型的全面评估。

🔬 方法详解

问题定义：大型视觉语言模型虽然在通用视觉语言任务上表现出色，但在特定领域知识的注入过程中，容易发生灾难性遗忘，即模型在学习新知识的同时，忘记了预训练阶段获得的通用能力。现有方法难以在知识注入和能力保持之间取得平衡。

核心思路：论文的核心思路是借鉴LLM的微调方法和文本到图像扩散模型的主题驱动个性化，设计一个结构化的对话微调框架，通过多阶段的训练，逐步将领域知识注入模型，同时避免对原有能力的破坏。这种结构化的方法允许模型在不同阶段侧重于不同的目标，从而更好地平衡知识获取和能力保持。

技术框架：SDFT包含三个主要阶段：1) 基础知识保持(Foundation Preservation)：使用caption任务，通过视觉-语言对齐来强化预训练的视觉语言能力，防止模型忘记基础知识。2) 对比消歧(Contrastive Disambiguation)：引入精心设计的反事实示例，通过对比学习的方式，维护语义边界，避免模型混淆不同概念。3) 知识专业化(Knowledge Specialization)：利用思维链推理，引导模型学习和应用专业知识，从而将领域知识嵌入模型。整个框架采用多轮对话的形式，每个阶段对应一个特定的对话模板。

关键创新：SDFT的关键创新在于其结构化的对话微调框架，该框架通过多阶段的训练，将知识注入过程分解为多个可控的步骤，从而更好地平衡知识获取和能力保持。此外，论文还提出了一个以数据为中心的对话模板，该模板能够有效地将基础对齐与目标知识集成。

关键设计：SDFT使用加权的多轮监督框架，在不同的训练阶段，对不同的损失函数赋予不同的权重，从而控制模型在不同阶段的学习重点。例如，在基础知识保持阶段，可以增加caption任务的权重，而在知识专业化阶段，可以增加思维链推理任务的权重。具体的损失函数包括caption loss、对比学习loss和语言模型loss等。对话模板的设计也至关重要，需要根据具体的领域知识进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SDFT在多个领域（具体领域未知）的知识注入任务中表现出色，显著降低了灾难性遗忘的程度，同时保持了模型的通用视觉语言能力。具体的性能数据和对比基线在论文中给出，但摘要中未提及具体数值。SDFT在平衡专业知识获取与通用能力保留方面取得了显著的提升。

🎯 应用场景

该研究成果可广泛应用于需要将专业知识注入视觉语言模型的场景，例如医疗诊断、工业检测、智能客服等。通过SDFT，可以使VLM更好地理解和处理特定领域的视觉信息，提高其在专业领域的应用能力，并降低灾难性遗忘的风险。未来，该方法有望扩展到更多模态和领域，实现更高效的知识注入。

📄 摘要（原文）

Large Vision Language Models have demonstrated impressive versatile capabilities through extensive multimodal pre-training, but face significant limitations when incorporating specialized knowledge domains beyond their training distribution. These models struggle with a fundamental dilemma: direct adaptation approaches that inject domain-specific knowledge often trigger catastrophic forgetting of foundational visual-linguistic abilities. We introduce Structured Dialogue Fine-Tuning (SDFT), an effective approach that effectively injects domain-specific knowledge while minimizing catastrophic forgetting. Drawing inspiration from supervised fine-tuning in LLMs and subject-driven personalization in text-to-image diffusion models, our method employs a three-phase dialogue structure: Foundation Preservation reinforces pre-trained visual-linguistic alignment through caption tasks; Contrastive Disambiguation introduces carefully designed counterfactual examples to maintain semantic boundaries; and Knowledge Specialization embeds specialized information through chain-of-thought reasoning. Experimental results across multiple domains confirm SDFT's effectiveness in balancing specialized knowledge acquisition with general capability retention. Our key contributions include a data-centric dialogue template that balances foundational alignment with targeted knowledge integration, a weighted multi-turn supervision framework, and comprehensive evaluation across diverse knowledge types.

Keep the General, Inject the Specific: Structured Dialogue Fine-Tuning for Knowledge Injection without Catastrophic Forgetting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理