Investigating and Enhancing Vision-Audio Capability in Omnimodal Large Language Models

作者: Rui Hu, Delai Qiu, Shuyu Wei, Jiaming Zhang, Yining Wang, Shengping Liu, Jitao Sang

分类: cs.CV, cs.LG

发布日期: 2025-02-27 (更新: 2025-09-01)

备注: Accepted to ACL 2025 Findings

期刊: Findings of the Association for Computational Linguistics: ACL 2025

DOI: 10.18653/v1/2025.findings-acl.389

💡 一句话要点

提出自知识蒸馏方法，提升全模态大语言模型在视觉-音频任务中的性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 全模态大语言模型 视觉-音频 自知识蒸馏 多模态融合 知识迁移

📋 核心要点

现有全模态大语言模型在视觉-音频任务中表现不佳，主要原因是视觉和音频模态在训练时对齐不足。
论文提出自知识蒸馏方法，利用视觉-文本组件作为教师，指导视觉-音频组件的学习，从而提升性能。
实验结果表明，该方法能够有效提升全模态大语言模型在视觉-音频任务中的性能，改善模态间交互。

📝 摘要（中文）

全模态大语言模型(OLLMs)在整合视觉和文本方面取得了显著进展，但在整合视觉和音频方面仍然存在困难。与文本查询相比，OLLMs在处理音频查询时通常表现出次优性能。这种差异主要是由于训练期间视觉和音频模态之间的对齐不足，导致在使用音频查询时对视觉信息的关注不够。为了缓解这个问题，我们提出了一种自知识蒸馏(Self-KD)训练方法，其中OLLM的视觉-文本组件作为教师，视觉-音频组件作为学生。这使得模型能够以类似于文本处理的方式处理音频。实验结果表明，Self-KD是一种有效的方法，可以通过学习视觉-文本组件来增强OLLM的视觉-音频能力，从而改善音频和图像之间的交互，并提高多模态任务的性能。

🔬 方法详解

问题定义：论文旨在解决全模态大语言模型(OLLMs)在处理视觉-音频任务时性能不佳的问题。现有方法在训练过程中，视觉和音频模态的对齐不足，导致模型在接收音频查询时，无法充分利用视觉信息，从而影响最终的性能。

核心思路：论文的核心思路是利用模型自身已经训练好的视觉-文本能力，通过知识蒸馏的方式，将视觉-文本组件的知识迁移到视觉-音频组件上。这样可以使得模型在处理音频查询时，能够像处理文本查询一样，有效地利用视觉信息。

技术框架：整体框架包含一个预训练的OLLM，以及提出的自知识蒸馏(Self-KD)训练方法。Self-KD方法中，OLLM的视觉-文本分支作为教师模型，OLLM的视觉-音频分支作为学生模型。教师模型负责生成视觉-文本任务的输出，学生模型负责生成视觉-音频任务的输出。通过最小化学生模型和教师模型输出之间的差异，实现知识的迁移。

关键创新：论文的关键创新在于提出了自知识蒸馏(Self-KD)方法，将OLLM自身的视觉-文本能力作为先验知识，用于指导视觉-音频能力的学习。这种方法避免了引入额外的外部知识或数据，充分利用了模型自身的能力。与传统的知识蒸馏方法不同，Self-KD方法中的教师模型和学生模型共享大部分参数，从而可以更有效地进行知识迁移。

关键设计：Self-KD方法的关键设计在于如何定义教师模型和学生模型之间的损失函数。论文采用了一种基于KL散度的损失函数，用于衡量学生模型和教师模型输出之间的差异。此外，论文还对损失函数进行了加权，以平衡视觉-文本任务和视觉-音频任务之间的重要性。具体的网络结构和参数设置取决于所使用的OLLM模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的Self-KD方法能够显著提升OLLM在视觉-音频任务中的性能。具体而言，在多个benchmark数据集上，该方法相比于基线模型取得了显著的性能提升，验证了其有效性。性能提升幅度在不同数据集上有所不同，但总体趋势是正向的。

🎯 应用场景

该研究成果可应用于各种需要理解视觉和音频信息的多模态任务，例如智能监控、视频内容分析、人机交互等。通过提升模型对视觉和音频信息的理解能力，可以实现更智能、更高效的应用。

📄 摘要（原文）

Omnimodal Large Language Models (OLLMs) have shown significant progress in integrating vision and text, but still struggle with integrating vision and audio, often exhibiting suboptimal performance when processing audio queries compared to text queries. This disparity is primarily due to insufficient alignment between vision and audio modalities during training, leading to inadequate attention to visual information when using audio queries. To mitigate this issue, we propose a Self-Knowledge Distillation (Self-KD) training method where the vision-text component of the OLLM serves as the teacher and the vision-audio component as the student. This enables the model to process audio in a manner analogous to its text processing. Our experimental results demonstrate that Self-KD is an effective method for enhancing the vision-audio capabilities of OLLMs by learning from the vision-text components, which subsequently improves the interaction between audio and images and results in improved performance on multimodal tasks.

Investigating and Enhancing Vision-Audio Capability in Omnimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理