Dissecting Dissonance: Benchmarking Large Multimodal Models Against Self-Contradictory Instructions

作者: Jin Gao, Lei Gan, Yuankai Li, Yixin Ye, Dequan Wang

分类: cs.AI

发布日期: 2024-08-02 (更新: 2024-08-05)

备注: Accepted by the 18th European Conference on Computer Vision ECCV 2024

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出自相矛盾指令基准，揭示并缓解大模型在多模态冲突指令识别上的不足。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 自相矛盾指令 指令遵循 认知推理 数据集构建 大语言模型 视觉语言模型

📋 核心要点

现有大型多模态模型在处理复杂指令时，容易受到自相矛盾指令的干扰，尤其是在多模态交互场景下。
论文提出一种自动化的数据集构建框架，用于生成包含20,000个自相矛盾指令的数据集，涵盖语言和视觉两种模态。
通过认知唤醒提示（Cognitive Awakening Prompting）方法，从外部注入认知，显著提升了模型对指令不一致性的检测能力。

📝 摘要（中文）

大型多模态模型(LMMs)在遵循人类指令方面表现出色。然而，由于多模态交互和上下文长度的增加趋势，可能会出现自相矛盾的指令，这对语言初学者和弱势群体构成挑战。我们引入了自相矛盾指令基准，以评估LMMs识别冲突命令的能力。它包含20,000个冲突，均匀分布在语言和视觉范式之间。它由一种新颖的自动数据集创建框架构建，该框架加速了该过程，并使我们能够涵盖广泛的指令形式。我们的综合评估表明，由于缺乏自我意识，当前的LMMs始终难以识别多模态指令不一致。因此，我们提出了认知唤醒提示，从外部注入认知，从而大大增强了不和谐检测。数据集和代码位于：https://selfcontradiction.github.io/。

🔬 方法详解

问题定义：论文旨在解决大型多模态模型（LMMs）在处理自相矛盾指令时表现出的不足。现有的LMMs在面对包含冲突信息的指令时，难以识别并做出正确的响应，这在多模态交互日益频繁的背景下是一个严重的问题。这种缺陷可能导致模型产生不合理或错误的输出，影响用户体验和模型的可靠性。

核心思路：论文的核心思路是通过构建一个包含大量自相矛盾指令的数据集，来系统地评估和提升LMMs对指令冲突的识别能力。同时，引入“认知唤醒提示”方法，通过外部知识注入，增强模型的自我意识和推理能力，从而更好地处理矛盾指令。

技术框架：整体框架包含两个主要部分：1) 自动数据集构建框架，用于生成包含语言和视觉模态冲突指令的数据集；2) 认知唤醒提示方法，用于提升LMMs对指令冲突的识别能力。数据集构建框架采用自动化流程，能够快速生成大量多样化的自相矛盾指令。认知唤醒提示方法则通过特定的prompt设计，引导模型利用外部知识进行推理，从而识别并解决指令中的冲突。

关键创新：论文的关键创新在于：1) 提出了一个自动化的数据集构建框架，能够高效地生成大规模的自相矛盾指令数据集，解决了现有数据集规模小、覆盖范围有限的问题；2) 提出了“认知唤醒提示”方法，通过外部知识注入，有效提升了LMMs对指令冲突的识别能力，弥补了模型自身认知能力的不足。

关键设计：数据集构建框架的关键设计包括：指令模板的设计、冲突类型的定义、以及自动化生成流程的优化。认知唤醒提示方法的关键设计在于prompt的设计，需要精心设计prompt，引导模型利用外部知识进行推理，并识别指令中的冲突。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的LMMs在自相矛盾指令基准上表现不佳，表明其缺乏足够的自我意识和推理能力。通过引入认知唤醒提示方法，模型在不和谐检测任务上的性能得到了显著提升，具体提升幅度未知，但证明了该方法的有效性。该基准的发布也将促进该领域的研究。

🎯 应用场景

该研究成果可应用于提升智能助手、聊天机器人等AI系统的鲁棒性和可靠性。通过提高模型对自相矛盾指令的识别能力，可以减少模型产生错误或不合理输出的可能性，从而改善用户体验。此外，该研究还有助于开发更安全、更可靠的自动驾驶系统和机器人系统，避免因指令冲突而导致的安全事故。

📄 摘要（原文）

Large multimodal models (LMMs) excel in adhering to human instructions. However, self-contradictory instructions may arise due to the increasing trend of multimodal interaction and context length, which is challenging for language beginners and vulnerable populations. We introduce the Self-Contradictory Instructions benchmark to evaluate the capability of LMMs in recognizing conflicting commands. It comprises 20,000 conflicts, evenly distributed between language and vision paradigms. It is constructed by a novel automatic dataset creation framework, which expedites the process and enables us to encompass a wide range of instruction forms. Our comprehensive evaluation reveals current LMMs consistently struggle to identify multimodal instruction discordance due to a lack of self-awareness. Hence, we propose the Cognitive Awakening Prompting to inject cognition from external, largely enhancing dissonance detection. The dataset and code are here: https://selfcontradiction.github.io/.

Dissecting Dissonance: Benchmarking Large Multimodal Models Against Self-Contradictory Instructions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理