VLMs May Not Globally Enhance Human Alignment over LLMs During Natural Reading

作者: Jinzhou Wu, Zhengwu Ma, Jixing Li, Baoping Tang, Zitong Lu

分类: cs.CL, q-bio.NC

发布日期: 2026-05-27

备注: 17 pages, 10 figures

💡 一句话要点

研究表明，在自然阅读中，视觉语言模型(VLM)相比大型语言模型(LLM)可能不会全局性地提升人类对齐。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 大型语言模型 自然语言处理 人类对齐 多模态预训练

📋 核心要点

现有研究缺乏对多模态预训练如何影响自然阅读过程中模型与人类大脑活动对齐的深入理解。
该研究通过对比LLM和VLM在纯文本环境下的表现，隔离了多模态训练历史对人类对齐的影响。
实验表明，VLM的优势并非全局性的，而是在包含更强视觉语义内容的句子中更明显。

📝 摘要（中文）

大型语言模型(LLM)已成为人类语言处理中日益有用的计算模型，但视觉语言学习是否使文本表征在自然阅读过程中更像人类，这一点仍不清楚。本文通过在严格的纯文本设置下比较紧密匹配的LLM和视觉语言模型(VLM)对，从而解决了这个问题，这使我们能够将多模态训练历史的影响与在线视觉输入或跨模态融合隔离开来。我们使用包含全脑fMRI响应和同步眼动扫视的人类自然阅读数据集来评估模型与人类的对齐程度。我们的研究结果表明，多模态预训练可能不会在自然阅读过程中赋予人类对齐一致的、全局性的优势，这表明语言内部表征仍然是建模人类文本处理的关键因素。然而，当句子包含更强的视觉语义内容时，VLM的优势可能会更有选择性地出现，这得到了fMRI和眼动对齐的收敛证据。总之，我们的研究结果提供了一个受控的计算机实验框架，用于测试视觉学习历史如何塑造语言处理的模型-人类对齐，表明多模态预训练对自然阅读过程中类人语言表征的贡献是选择性的，而不是全局性的。

🔬 方法详解

问题定义：该论文旨在研究视觉语言模型（VLM）相比于大型语言模型（LLM），是否能在自然阅读过程中更好地模拟人类的语言处理过程。现有方法难以区分多模态预训练带来的影响，因为在线视觉输入和跨模态融合会干扰结果。因此，需要一种方法来隔离多模态训练历史的影响。

核心思路：核心思路是在纯文本环境下，比较经过多模态预训练的VLM和仅经过文本预训练的LLM，评估它们与人类自然阅读时大脑活动（fMRI）和眼动数据的对齐程度。通过这种方式，可以排除在线视觉输入的影响，专注于多模态预训练本身对语言表征的影响。

技术框架：整体框架包括以下几个步骤：1) 选择紧密匹配的LLM和VLM模型对；2) 使用纯文本输入，让模型处理自然阅读数据集中的句子；3) 收集模型内部的文本表征；4) 使用人类自然阅读数据集，该数据集包含全脑fMRI响应和同步眼动扫视数据；5) 计算模型表征与人类fMRI和眼动数据的对齐程度；6) 分析不同类型的句子（例如，包含强视觉语义内容的句子）中VLM和LLM的对齐差异。

关键创新：关键创新在于设计了一个受控的实验环境，通过纯文本输入隔离了多模态预训练的影响，从而能够更清晰地评估视觉学习历史对模型-人类语言处理对齐的影响。此外，该研究使用了人类自然阅读时的fMRI和眼动数据，提供了更直接的生物学证据。

关键设计：该研究的关键设计包括：1) 选择紧密匹配的LLM和VLM模型，以确保可比性；2) 使用全脑fMRI数据，提供对大脑活动的全面视角；3) 分析眼动数据，捕捉人类阅读时的认知过程；4) 对句子进行分类，区分包含不同视觉语义内容的句子；5) 使用适当的对齐指标，量化模型表征与人类数据的相似度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在自然阅读过程中，VLM相比LLM可能不会全局性地提升人类对齐。然而，当句子包含更强的视觉语义内容时，VLM的优势会更明显，这得到了fMRI和眼动数据的支持。这表明多模态预训练对人类语言表征的贡献是选择性的，而不是全局性的。

🎯 应用场景

该研究成果可应用于改进自然语言处理模型，使其更贴近人类的语言理解方式。通过理解多模态预训练对语言表征的影响，可以设计出更有效的人机交互系统、更自然的文本生成模型，以及更精准的阅读理解工具。未来的研究可以进一步探索不同模态信息融合的方式，以提升模型的语言理解能力。

📄 摘要（原文）

Large language models (LLMs) have become increasingly useful computational models of human language processing, but it remains unclear whether vision-language learning makes text representations more human-like during natural reading. Here, we address this question by comparing tightly matched LLM and vision-language model (VLM) pairs under a strictly text-only setting, allowing us to isolate the effect of multimodal training history from online visual input or cross-modal fusion. We evaluate model alignment with a human natural-reading dataset that includes whole-cortex fMRI responses and synchronized eye-tracking saccades. Our findings demonstrate that multimodal pretraining may not confer a uniform, global advantage in human alignment during natural reading, indicating that language-internal representations remain the key factor for modeling human text processing. However, the VLM advantage could emerge more selectively when sentences contain stronger visual semantic content, with converging evidence from both fMRI and eye-movement alignments. Together, our findings provide a controlled in silico framework for testing how visual learning history shapes model-human alignment of language processing, suggesting that multimodal pretraining contributes selectively rather than globally to human-like language representations during natural reading.

VLMs May Not Globally Enhance Human Alignment over LLMs During Natural Reading

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理