Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users

📄 arXiv: 2503.22610v1 📥 PDF

作者: Antonia Karamolegkou, Malvina Nikandrou, Georgios Pantazopoulos, Danae Sanchez Villegas, Phillip Rust, Ruchira Dhar, Daniel Hershcovich, Anders Søgaard

分类: cs.HC, cs.AI, cs.CL, cs.CY, cs.LG

发布日期: 2025-03-28


💡 一句话要点

评估多模态语言模型作为视障用户视觉辅助工具的有效性

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉辅助 视障人士 大型语言模型 用户调查 盲文识别 可访问性 模型评估

📋 核心要点

  1. 现有视觉辅助技术在上下文理解、文化敏感性和复杂场景理解方面存在不足,限制了视障人士的使用体验。
  2. 通过用户调查和系统评估,论文深入分析了MLLM在视障辅助应用中的优势与局限,并提出了改进方向。
  3. 实验结果揭示了现有MLLM在盲文识别、多语言支持等方面仍有提升空间,为未来研究提供了关键参考。

📝 摘要(中文)

本文探讨了多模态大型语言模型(MLLM)作为视障人士辅助技术的有效性。我们进行了一项用户调查,以识别采用模式和用户在使用此类技术时面临的关键挑战。尽管这些模型的采用率很高,但我们的研究结果强调了与上下文理解、文化敏感性和复杂场景理解相关的问题,特别是对于那些可能完全依赖它们进行视觉解释的个人。根据这些结果,我们整理了五个以用户为中心的图像和视频输入任务,包括一项关于光学盲文识别的新任务。我们对十二个MLLM的系统评估表明,需要进一步的改进来克服与文化背景、多语言支持、盲文阅读理解、辅助对象识别和幻觉相关的局限性。这项工作为多模态人工智能在可访问性方面的未来方向提供了重要的见解,强调了对更具包容性、稳健和值得信赖的视觉辅助技术的需求。

🔬 方法详解

问题定义:论文旨在评估多模态大型语言模型(MLLM)作为视障用户视觉辅助工具的有效性。现有方法在处理复杂场景、理解文化背景、识别盲文等方面存在不足,导致视障用户在使用时遇到困难。这些痛点包括对上下文的错误理解、对文化差异的不敏感以及产生幻觉等问题。

核心思路:论文的核心思路是通过用户调查了解视障用户对MLLM的需求和痛点,然后基于这些反馈设计一系列用户中心任务,对现有MLLM进行系统评估,从而找出MLLM在视障辅助应用中的局限性,并为未来的研究方向提供指导。

技术框架:论文的技术框架主要包括三个阶段:1) 用户调查:收集视障用户对现有视觉辅助技术的反馈;2) 任务设计:基于用户反馈,设计五个用户中心任务,包括光学盲文识别等;3) 模型评估:对十二个MLLM在这些任务上进行系统评估,分析其性能表现。

关键创新:论文的关键创新在于:1) 首次系统性地评估了MLLM在视障辅助应用中的有效性;2) 提出了一个新颖的光学盲文识别任务;3) 基于用户反馈,为MLLM在可访问性方面的未来发展方向提供了重要的见解。

关键设计:论文的关键设计包括:1) 用户调查问卷的设计,确保能够全面收集用户对MLLM的反馈;2) 五个用户中心任务的设计,涵盖了视障用户在日常生活中可能遇到的各种场景;3) 评估指标的选择,能够客观地反映MLLM在不同任务上的性能表现。论文没有详细说明具体的参数设置、损失函数或网络结构,因为其重点在于评估现有模型,而非提出新的模型架构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究对12个MLLM进行了系统评估,揭示了现有模型在文化背景理解、多语言支持和盲文阅读理解方面的局限性。例如,在光学盲文识别任务中,MLLM的性能表现参差不齐,表明需要进一步提升其对盲文的理解能力。用户调查也显示,用户对MLLM的信任度受到幻觉问题的影响。

🎯 应用场景

该研究成果可应用于开发更智能、更可靠的视障辅助设备,例如智能眼镜、移动应用等。通过提升MLLM在上下文理解、文化敏感性和复杂场景理解方面的能力,可以显著改善视障人士的生活质量,帮助他们更好地融入社会。

📄 摘要(原文)

This paper explores the effectiveness of Multimodal Large Language models (MLLMs) as assistive technologies for visually impaired individuals. We conduct a user survey to identify adoption patterns and key challenges users face with such technologies. Despite a high adoption rate of these models, our findings highlight concerns related to contextual understanding, cultural sensitivity, and complex scene understanding, particularly for individuals who may rely solely on them for visual interpretation. Informed by these results, we collate five user-centred tasks with image and video inputs, including a novel task on Optical Braille Recognition. Our systematic evaluation of twelve MLLMs reveals that further advancements are necessary to overcome limitations related to cultural context, multilingual support, Braille reading comprehension, assistive object recognition, and hallucinations. This work provides critical insights into the future direction of multimodal AI for accessibility, underscoring the need for more inclusive, robust, and trustworthy visual assistance technologies.