Knowledge-Decoupled Synergetic Learning: An MLLM based Collaborative Approach to Few-shot Multimodal Dialogue Intention Recognition

作者: Bin Chen, Yu Zhang, Hongfei Ye, Ziyi Huang, Hongyang Chen

分类: cs.CL, cs.AI

发布日期: 2025-03-06

💡 一句话要点

提出知识解耦协同学习(KDSL)，解决电商场景下少样本多模态对话意图识别难题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 少样本学习 多模态对话 意图识别 知识解耦 协同学习 大语言模型 电商 规则提取

📋 核心要点

现有少样本多模态对话意图识别方法存在知识干扰，导致多任务学习出现跷跷板效应。
提出知识解耦协同学习(KDSL)，利用小模型提取规则知识，大模型进行后训练，协同预测。
在淘宝数据集上，KDSL的在线加权F1分数比现有最佳方法提升了6.37%和6.28%。

📝 摘要（中文）

少样本多模态对话意图识别是电商领域的一个关键挑战。以往的方法主要通过后训练技术来增强模型的分类能力。然而，我们的分析表明，少样本多模态对话意图识别的训练涉及两个相互关联的任务，导致多任务学习中的跷跷板效应。这种现象归因于训练过程中权重矩阵更新的叠加所造成的知识干扰。为了解决这些挑战，我们提出了知识解耦协同学习(KDSL)，通过使用较小的模型将知识转化为可解释的规则，并应用较大模型的后训练来缓解这些问题。通过促进大型和小型多模态大语言模型之间的协作进行预测，我们的方法展示了显著的改进。值得注意的是，我们在两个真实的淘宝数据集上取得了出色的结果，与最先进的方法相比，在线加权F1分数提高了6.37%和6.28%，从而验证了我们框架的有效性。

🔬 方法详解

问题定义：论文旨在解决电商领域中少样本多模态对话意图识别的问题。现有方法主要依赖后训练增强模型分类能力，但忽略了多任务学习中知识干扰导致的“跷跷板效应”，即一个任务性能提升可能导致另一个任务性能下降。这种干扰源于权重矩阵更新的叠加，限制了模型整体性能的提升。

核心思路：论文的核心思路是将知识解耦，利用小模型提取可解释的规则知识，并将其用于指导大模型的训练和预测。通过小模型和大模型的协同学习，缓解知识干扰，提升少样本场景下的意图识别准确率。这种设计旨在结合小模型的知识提取能力和大模型的泛化能力，实现优势互补。

技术框架：KDSL框架包含两个主要组成部分：知识提取模块和协同预测模块。知识提取模块使用小型的多模态大语言模型，通过训练学习将输入的多模态对话信息转化为可解释的规则。协同预测模块则利用大型的多模态大语言模型，结合提取的规则知识进行意图预测。整体流程是，首先使用小模型提取规则，然后将规则作为先验知识输入到大模型中，最后由大模型进行意图分类。

关键创新：KDSL的关键创新在于知识解耦的思想，以及将小模型提取的规则知识融入大模型训练和预测的过程。与现有方法直接使用大模型进行端到端训练不同，KDSL通过小模型显式地提取知识，并利用这些知识来指导大模型的学习，从而缓解了知识干扰，提升了模型的泛化能力。

关键设计：论文中关键的设计包括：小模型的选择和训练方式，规则知识的表示和融入方式，以及大模型的后训练策略。具体参数设置、损失函数和网络结构等细节在论文中应该有更详细的描述，但根据摘要信息，这些细节是实现KDSL框架有效性的重要组成部分。（具体细节未知，需参考原文）

🖼️ 关键图片

📊 实验亮点

实验结果表明，KDSL在两个真实的淘宝数据集上取得了显著的性能提升。与最先进的方法相比，在线加权F1分数分别提高了6.37%和6.28%。这些结果验证了KDSL框架在解决少样本多模态对话意图识别问题上的有效性。

🎯 应用场景

该研究成果可应用于电商客服、智能助手等领域，提升少样本场景下多模态对话意图识别的准确率，从而提高用户满意度和运营效率。未来可扩展到其他多模态任务，例如视频理解、图像描述等，具有广泛的应用前景。

📄 摘要（原文）

Few-shot multimodal dialogue intention recognition is a critical challenge in the e-commerce domainn. Previous methods have primarily enhanced model classification capabilities through post-training techniques. However, our analysis reveals that training for few-shot multimodal dialogue intention recognition involves two interconnected tasks, leading to a seesaw effect in multi-task learning. This phenomenon is attributed to knowledge interference stemming from the superposition of weight matrix updates during the training process. To address these challenges, we propose Knowledge-Decoupled Synergetic Learning (KDSL), which mitigates these issues by utilizing smaller models to transform knowledge into interpretable rules, while applying the post-training of larger models. By facilitating collaboration between the large and small multimodal large language models for prediction, our approach demonstrates significant improvements. Notably, we achieve outstanding results on two real Taobao datasets, with enhancements of 6.37\% and 6.28\% in online weighted F1 scores compared to the state-of-the-art method, thereby validating the efficacy of our framework.

Knowledge-Decoupled Synergetic Learning: An MLLM based Collaborative Approach to Few-shot Multimodal Dialogue Intention Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理