Predicting Sentence Acceptability Judgments in Multimodal Contexts

📄 arXiv: 2602.20918v1 📥 PDF

作者: Hyewon Jang, Nikolai Ilinykh, Sharid Loáiciga, Jey Han Lau, Shalom Lappin

分类: cs.AI, cs.CL

发布日期: 2026-02-24


💡 一句话要点

研究视觉上下文对人类和LLM句子可接受性判断的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 句子可接受性判断 视觉上下文 大型语言模型 多模态学习 人类认知

📋 核心要点

  1. 现有研究主要集中于DNN在独立或文档上下文中预测句子可接受性,忽略了视觉上下文的影响。
  2. 本文考察视觉上下文对人类和LLM句子可接受性判断的影响,对比分析二者在多模态情境下的差异。
  3. 实验表明视觉上下文对人类影响甚微,但LLM表现出压缩效应,且不同模型判断分布存在差异。

📝 摘要(中文)

本文研究了视觉图像(即视觉上下文)对人类和大型语言模型(LLM)句子可接受性判断的影响。与文本上下文不同,视觉图像对人类的可接受性评分几乎没有影响。然而,LLM表现出与先前文档上下文研究中人类判断相似的压缩效应。不同类型的LLM能够高精度地预测人类的可接受性判断,但通常在移除视觉上下文时性能略好。LLM判断的分布因模型而异,其中Qwen与人类模式相似,而其他模型则与之不同。LLM生成的句子可接受性预测通常与其归一化对数概率高度相关。然而,当存在视觉上下文时,相关性会降低,表明在视觉上下文存在下,LLM的内部表示与其生成的预测之间存在更大的差距。实验结果揭示了人类和LLM在多模态上下文中处理句子时,在相似性和差异性方面的一些有趣之处。

🔬 方法详解

问题定义:本文旨在研究视觉上下文如何影响人类和大型语言模型(LLM)对句子可接受性的判断。现有方法主要关注文本上下文,忽略了视觉信息的作用。此外,现有研究缺乏对人类和LLM在多模态情境下句子理解差异的深入分析。

核心思路:本文的核心思路是通过实验对比人类和LLM在有无视觉上下文的情况下对句子可接受性的判断,从而揭示视觉信息对二者判断的影响。通过分析LLM的预测分布和内部表示,进一步探究LLM在多模态情境下的工作机制。

技术框架:本文的实验框架主要包括以下几个步骤:1) 构建包含句子和视觉图像的多模态数据集;2) 让人类和LLM对数据集中的句子进行可接受性评分;3) 分析人类和LLM的评分结果,对比有无视觉上下文的影响;4) 分析LLM的预测分布和内部表示,探究其在多模态情境下的工作机制。

关键创新:本文的关键创新在于首次系统性地研究了视觉上下文对人类和LLM句子可接受性判断的影响,揭示了人类和LLM在多模态情境下句子理解的差异。此外,本文还深入分析了LLM在多模态情境下的工作机制,为理解LLM的内部表示提供了新的视角。

关键设计:本文的关键设计包括:1) 精心构建的多模态数据集,包含多种类型的句子和视觉图像;2) 采用多种类型的LLM进行实验,包括Qwen等;3) 使用归一化对数概率等指标来衡量LLM的预测置信度;4) 通过分析LLM的预测分布和内部表示,深入探究其在多模态情境下的工作机制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,视觉上下文对人类句子可接受性判断影响甚微,而LLM则表现出压缩效应。Qwen模型的判断分布与人类相似,其他模型则存在差异。LLM预测与归一化对数概率高度相关,但在视觉上下文存在时相关性降低,表明LLM内部表示与预测之间存在差距。

🎯 应用场景

该研究成果可应用于提升多模态对话系统和图像描述生成模型的性能。通过更好地理解视觉上下文对语言理解的影响,可以设计出更符合人类直觉的多模态人工智能系统。此外,该研究还有助于深入理解人类和机器在多模态信息处理方面的差异。

📄 摘要(原文)

Previous work has examined the capacity of deep neural networks (DNNs), particularly transformers, to predict human sentence acceptability judgments, both independently of context, and in document contexts. We consider the effect of prior exposure to visual images (i.e., visual context) on these judgments for humans and large language models (LLMs). Our results suggest that, in contrast to textual context, visual images appear to have little if any impact on human acceptability ratings. However, LLMs display the compression effect seen in previous work on human judgments in document contexts. Different sorts of LLMs are able to predict human acceptability judgments to a high degree of accuracy, but in general, their performance is slightly better when visual contexts are removed. Moreover, the distribution of LLM judgments varies among models, with Qwen resembling human patterns, and others diverging from them. LLM-generated predictions on sentence acceptability are highly correlated with their normalised log probabilities in general. However, the correlations decrease when visual contexts are present, suggesting that a higher gap exists between the internal representations of LLMs and their generated predictions in the presence of visual contexts. Our experimental work suggests interesting points of similarity and of difference between human and LLM processing of sentences in multimodal contexts.