Multimodal Task Interference: A Benchmark and Analysis of History-Target Mismatch in Multimodal LLMs

📄 arXiv: 2603.18425v1 📥 PDF

作者: Masayuki Kawarada, Tatsuya Ishigaki, Hiroya Takamura

分类: cs.CL

发布日期: 2026-03-19


💡 一句话要点

提出多模态任务干扰基准,分析多模态LLM中历史-目标不匹配问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 任务干扰 大型语言模型 基准测试 模态不匹配

📋 核心要点

  1. 现有研究主要集中在纯文本对话中,忽略了多模态LLM中任务切换带来的性能干扰问题。
  2. 论文提出一个多模态任务干扰基准,系统评估不同模态、推理和格式组合下的性能下降。
  3. 实验表明,模态切换是任务干扰的主要因素,文本到图像的切换会显著降低模型性能。

📝 摘要(中文)

本文研究了多模态大型语言模型(LLM)中任务干扰现象,即在单次对话中由于任务切换导致的性能下降。尽管多模态对话系统日益普及,但任务干扰的研究主要集中在纯文本环境中。为此,我们提出了一个用于评估多模态LLM中任务干扰的基准,该基准涵盖文本和视觉领域的六个任务,并系统地沿着三个轴(模态不匹配、推理不匹配和答案格式不匹配)对历史-目标进行变化。对开源和闭源模型的实验表明,任务干扰具有高度的方向性:从纯文本到基于图像的目标切换会导致严重的性能下降,而反向转换的性能下降最小。当多个维度上发生不匹配时,干扰会进一步放大,并且主要由模态差异驱动,其次是答案格式,而推理需求的变化引起的性能下降最小。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(LLM)在对话过程中,由于任务切换(例如从文本问答切换到图像问答)而产生的性能下降问题,即任务干扰。现有方法主要关注纯文本场景下的任务干扰,忽略了多模态场景下模态差异、推理需求和答案格式等因素对任务干扰的影响。这种忽略可能导致多模态LLM在实际应用中表现不佳。

核心思路:论文的核心思路是构建一个全面的多模态任务干扰基准,通过系统性地控制历史信息和目标任务之间的模态、推理需求和答案格式的匹配程度,来评估多模态LLM在不同任务切换场景下的性能表现。通过分析实验结果,揭示不同因素对任务干扰的影响程度,从而为提升多模态LLM的鲁棒性和泛化能力提供指导。

技术框架:该研究的技术框架主要包括以下几个部分:1)构建多模态任务干扰基准,包含文本和视觉领域的六个任务。2)设计实验,系统性地改变历史信息和目标任务之间的模态匹配程度(文本-文本、文本-图像、图像-文本、图像-图像)、推理需求匹配程度(简单推理、复杂推理)和答案格式匹配程度(文本、图像)。3)在多个开源和闭源的多模态LLM上进行实验,评估模型在不同任务切换场景下的性能表现。4)分析实验结果,量化不同因素对任务干扰的影响程度。

关键创新:论文的关键创新在于:1)首次提出了一个用于评估多模态LLM中任务干扰的基准,填补了该领域的研究空白。2)系统性地研究了模态差异、推理需求和答案格式等因素对任务干扰的影响,揭示了模态差异是导致任务干扰的主要因素。3)通过实验验证了任务干扰具有方向性,即从文本到图像的切换比从图像到文本的切换更容易导致性能下降。

关键设计:在基准设计方面,论文精心挑选了六个任务,覆盖了文本和视觉领域,并确保任务之间具有一定的关联性,以便进行任务切换。在实验设计方面,论文采用了全因子设计,系统性地改变历史信息和目标任务之间的模态、推理需求和答案格式的匹配程度。在模型选择方面,论文选择了多个具有代表性的开源和闭源多模态LLM,以保证实验结果的泛化性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,模态不匹配是导致任务干扰的主要因素,从文本到图像的切换会导致显著的性能下降。当模态、推理和答案格式同时不匹配时,干扰会进一步放大。例如,在某些任务上,模型性能下降幅度超过30%。

🎯 应用场景

该研究成果可应用于提升多模态对话系统的鲁棒性和用户体验。通过理解和缓解任务干扰,可以开发出更稳定、更可靠的多模态LLM,应用于智能客服、教育辅导、人机协作等领域,提升用户在复杂多模态交互场景下的满意度。

📄 摘要(原文)

Task interference, the performance degradation caused by task switches within a single conversation, has been studied exclusively in text-only settings despite the growing prevalence of multimodal dialogue systems. We introduce a benchmark for evaluating this phenomenon in multimodal LLMs, covering six tasks across text and vision with systematic variation of history-target along three axes: modality mismatch, reasoning mismatch, and answer format mismatch. Experiments on both open-weights and proprietary models reveal that task interference is highly directional: switching from text-only to image-based targets causes severe performance drops, while the reverse transition yields minimal degradation. Interference is further amplified when mismatches co-occur across multiple dimensions, and is driven most strongly by modality differences, followed by answer format, while reasoning requirement shifts cause minimal degradation.