Exploring Multimodal Perception in Large Language Models Through Perceptual Strength Ratings
作者: Jonghyun Lee, Dojun Park, Jiwoo Lee, Hoekeon Choi, Sung-Eun Lee
分类: cs.CL
发布日期: 2025-03-10 (更新: 2025-11-07)
备注: Published in IEEE Access
期刊: IEEE Access, vol. 13, pp. 176751-176769, 2025
DOI: 10.1109/ACCESS.2025.3618700
💡 一句话要点
通过感知强度评估探索大型语言模型中的多模态感知能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 多模态感知 感官基础 感知强度 具身认知
📋 核心要点
- 现有大型语言模型在感官基础方面存在不足,无法完全模拟人类的感知能力。
- 本研究通过感知强度评估,分析多模态LLM在模拟人类感官体验方面的能力,并探究模型特性、分布因子等的影响。
- 实验结果表明,更大的、多模态的和更新的模型在感知强度预测方面表现更好,但仍与人类存在差异。
📝 摘要(中文)
本研究调查了多模态大型语言模型是否能够通过捕捉跨感官模式的感知强度等级来实现类人的感官基础。我们探讨了模型特征(大小、多模态能力、架构生成)如何影响基础性能、分布因子依赖性(词频、嵌入、特征距离)以及人与模型处理的差异。我们使用来自兰卡斯特感觉运动规范的3611个单词,通过相关性、距离度量和定性分析评估了来自四个系列(GPT、Gemini、LLaMA、Qwen)的21个模型。结果表明,更大(8个比较中的6个)、多模态(7个中的5个)和更新的模型(8个中的5个)通常优于其更小、基于文本和更旧的对应模型。最佳模型实现了85-90%的准确率以及与人类评级0.58-0.65的相关性,表明了显著的相似性。此外,分布因素的影响最小,没有超过人类依赖水平。然而,尽管具有很强的一致性,但模型与人类并不相同,因为即使是表现最佳的模型在距离和相关性度量方面也表现出差异,定性分析揭示了与感觉基础缺失相关的处理模式。此外,引入多模态是否能解决这种基础缺陷仍然值得怀疑。虽然多模态提高了性能,但它似乎提供了与大量文本相似的信息,而不是质量上不同的数据,因为好处发生在不相关的感官维度上,并且大量纯文本模型取得了相当的结果。我们的研究结果表明,虽然先进的LLM可以通过统计学习来近似人类的感觉-语言关联,但即使通过多模态集成,它们在处理机制上仍然与人类的具身认知不同。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在多大程度上能够模拟人类的感官感知能力,即模型是否能像人类一样理解和处理不同感官(如视觉、听觉、触觉等)相关的词汇。现有方法主要集中在文本理解,缺乏对模型感官基础的深入评估,无法确定模型是否真正理解了词汇的感官含义,还是仅仅通过统计关联进行预测。
核心思路:论文的核心思路是通过比较LLM和人类对同一组词汇的感知强度评级,来评估模型的感官基础能力。如果模型能够准确预测人类对不同感官词汇的感知强度,则表明模型具有一定的感官基础。通过分析模型性能与模型大小、多模态能力等因素的关系,可以进一步了解哪些因素有助于提高模型的感官基础能力。
技术框架:论文的技术框架主要包括以下几个步骤:1) 选择包含大量感官词汇的数据集(Lancaster Sensorimotor Norms)。2) 使用不同类型的LLM(GPT、Gemini、LLaMA、Qwen)对数据集中的词汇进行感知强度预测。3) 将模型的预测结果与人类的评级进行比较,使用相关性、距离度量等指标评估模型的性能。4) 分析模型性能与模型特征(大小、多模态能力等)以及分布因子(词频、嵌入等)的关系。5) 进行定性分析,识别模型在处理感官词汇时存在的偏差和不足。
关键创新:论文的关键创新在于:1) 系统性地评估了多种LLM在感官基础方面的能力,揭示了模型在模拟人类感官感知方面的优势和不足。2) 探讨了模型特征、分布因子等因素对模型感官基础能力的影响,为改进模型设计提供了指导。3) 提出了使用感知强度评级作为评估模型感官基础能力的有效方法。
关键设计:论文的关键设计包括:1) 使用Lancaster Sensorimotor Norms数据集,该数据集包含了大量感官词汇以及人类对这些词汇的感知强度评级。2) 选择了多种类型的LLM,包括不同大小、不同架构、不同训练方式的模型,以便进行全面的比较。3) 使用了多种评估指标,包括相关性、距离度量等,以便从不同角度评估模型的性能。4) 进行了定性分析,识别模型在处理感官词汇时存在的偏差和不足。
📊 实验亮点
实验结果表明,更大的、多模态的和更新的模型在感知强度预测方面表现更好。最佳模型实现了85-90%的准确率以及与人类评级0.58-0.65的相关性。然而,即使是表现最佳的模型在距离和相关性度量方面也表现出与人类的差异,表明模型在处理感官信息时仍存在不足。
🎯 应用场景
该研究成果可应用于提升人机交互的自然性和真实感,例如在虚拟现实、游戏、智能助手等领域。通过提高模型对感官信息的理解能力,可以使机器更好地理解人类的需求和意图,从而提供更智能、更个性化的服务。此外,该研究还可以促进对人类认知机制的理解,为人工智能的未来发展提供新的思路。
📄 摘要(原文)
This study investigated whether multimodal large language models can achieve human-like sensory grounding by examining their ability to capture perceptual strength ratings across sensory modalities. We explored how model characteristics (size, multimodal capabilities, architectural generation) influence grounding performance, distributional factor dependencies (word frequency, embeddings, feature distances), and human-model processing differences. We evaluated 21 models from four families (GPT, Gemini, LLaMA, Qwen) using 3,611 words from the Lancaster Sensorimotor Norms through correlation, distance metrics, and qualitative analysis. Results showed that larger (6 out of 8 comparisons), multimodal (5 of 7), and newer models (5 of 8) generally outperformed their smaller, text-based, and older counterparts. Top models achieved 85-90% accuracy and 0.58-0.65 correlations with human ratings, demonstrating substantial similarity. Moreover, distributional factors showed minimal impact, not exceeding human dependency levels. However, despite strong alignment, models were not identical to humans, as even top performers showed differences in distance and correlation measures, with qualitative analysis revealing processing patterns related to absent sensory grounding. Additionally, it remains questionable whether introducing multimodality resolves this grounding deficit. Although multimodality improved performance, it seems to provide similar information as massive text rather than qualitatively different data, as benefits occurred across unrelated sensory dimensions and massive text-only models achieved comparable results. Our findings demonstrate that while advanced LLMs can approximate human sensory-linguistic associations through statistical learning, they still differ from human embodied cognition in processing mechanisms, even with multimodal integration.