Are Multimodal Large Language Models Pragmatically Competent Listeners in Simple Reference Resolution Tasks?

作者: Simeon Junker, Manar Ali, Larissa Koch, Sina Zarrieß, Hendrik Buschmeier

分类: cs.CL

发布日期: 2025-06-13

备注: To appear in ACL Findings 2025

期刊: Findings of the Association for Computational Linguistics: ACL 2025, pp. 24101-24109

DOI: 10.18653/v1/2025.findings-acl.1236

💡 一句话要点

探讨多模态大语言模型在简单指称解析任务中的实用能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 指称解析 语用能力 颜色描述 上下文理解

📋 核心要点

现有的多模态大语言模型在简单的指称解析任务中表现不佳，尤其是在上下文依赖的颜色描述方面。
论文通过设计简单的视觉刺激任务，探讨MLLMs的语用能力，旨在揭示其在指称解析中的局限性。
实验结果显示，当前的MLLMs在处理颜色描述时仍存在显著的理解障碍，未能达到人类的水平。

📝 摘要（中文）

本研究调查了多模态大语言模型在简单指称解析任务中的语言能力，任务涉及抽象视觉刺激，如颜色块和颜色网格。尽管该任务对人类而言相对简单，但我们认为它是检验多模态大语言模型（MLLMs）语用能力的重要工具。研究结果表明，基本的语用能力，如对颜色描述的上下文依赖解释，仍然是当前最先进的MLLMs面临的重大挑战。

🔬 方法详解

问题定义：本研究旨在解决多模态大语言模型在简单指称解析任务中的表现不足，尤其是在上下文依赖的颜色描述解析方面。现有方法在处理这些基本语用能力时面临挑战。

核心思路：论文通过设计简单且抽象的视觉刺激任务，考察MLLMs的语用能力，特别是它们如何理解和解析颜色描述的上下文信息。这样的设计能够有效揭示模型的局限性。

技术框架：研究采用了一系列简单的视觉刺激，如颜色块和颜色网格，构建了一个实验框架来评估MLLMs的表现。主要模块包括视觉输入处理、语言描述解析和上下文理解。

关键创新：本研究的创新点在于将简单的视觉任务作为语用能力的测试工具，强调了当前MLLMs在基本语用理解方面的不足，与现有研究相比，提供了新的评估视角。

关键设计：实验中使用了标准化的颜色描述和视觉刺激，确保了任务的一致性。同时，设计了特定的评估指标，以量化模型在上下文理解方面的表现。实验结果通过对比基线进行分析，揭示了模型的理解能力。

📊 实验亮点

实验结果显示，当前的多模态大语言模型在简单的颜色描述解析任务中表现不佳，尤其是在上下文依赖的理解方面，准确率未能超过基线模型，表明其在基本语用能力上的显著不足。这一发现为未来的模型改进提供了重要的研究方向。

🎯 应用场景

该研究的潜在应用领域包括人机交互、智能助手和自动化客服等。通过提高多模态大语言模型在指称解析任务中的表现，可以增强其在实际应用中的理解能力和响应准确性，从而提升用户体验。未来，研究结果可能推动更智能的对话系统和视觉理解模型的发展。

📄 摘要（原文）

We investigate the linguistic abilities of multimodal large language models in reference resolution tasks featuring simple yet abstract visual stimuli, such as color patches and color grids. Although the task may not seem challenging for today's language models, being straightforward for human dyads, we consider it to be a highly relevant probe of the pragmatic capabilities of MLLMs. Our results and analyses indeed suggest that basic pragmatic capabilities, such as context-dependent interpretation of color descriptions, still constitute major challenges for state-of-the-art MLLMs.

Are Multimodal Large Language Models Pragmatically Competent Listeners in Simple Reference Resolution Tasks?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册