Towards Understanding the Use of MLLM-Enabled Applications for Visual Interpretation by Blind and Low Vision People
作者: Ricardo E. Gonzalez Penuela, Ruiying Hu, Sharon Lin, Tanisha Shende, Shiri Azenkot
分类: cs.HC, cs.AI
发布日期: 2025-03-07
备注: 8 pages, 1 figure, 4 tables, to appear at CHI 2025
💡 一句话要点
利用MLLM的视觉解释应用提升盲人和低视力人群的日常体验
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉解释 多模态大型语言模型 盲人和低视力人群 辅助技术 日记研究
📋 核心要点
- 现有的视觉解释应用错误频繁,无法充分满足盲人和低视力人群的需求。
- 该研究探索了MLLM赋能的视觉解释应用,旨在提供更准确、更值得信赖的视觉信息。
- 初步研究表明,参与者对MLLM应用提供的视觉解释信任度较高,尤其是在高风险场景中。
📝 摘要(中文)
盲人和低视力(BLV)人群已经开始使用人工智能驱动的视觉解释应用来满足他们的日常需求。虽然这些应用提供了一定的帮助,但之前的研究表明,用户对应用频繁出现的错误仍不满意。最近,多模态大型语言模型(MLLM)已被集成到视觉解释应用中,并显示出提供更具描述性的视觉解释的潜力。然而,这种进步如何改变了人们对这些应用的使用方式仍然未知。为了弥补这一差距,我们进行了一项为期两周的日记研究,其中20名BLV人群使用了我们开发的支持MLLM的视觉解释应用,并收集了553条记录。在本文中,我们报告了对来自6名参与者的60条日记条目的初步分析。我们发现参与者认为该应用的视觉解释是值得信赖的(平均分3.75/5)和令人满意的(平均分4.15/5)。此外,参与者在高风险场景中信任我们的应用,例如接收医疗剂量建议。我们讨论了完成分析的计划,以便为未来基于MLLM的视觉解释系统的设计提供信息。
🔬 方法详解
问题定义:盲人和低视力人群依赖视觉解释应用获取周围环境信息,但现有应用的准确性和可靠性不足,导致用户体验不佳,甚至可能造成安全隐患。因此,如何提升视觉解释应用的性能,使其能够提供更准确、更值得信赖的信息,是亟待解决的问题。
核心思路:利用多模态大型语言模型(MLLM)强大的视觉理解和语言生成能力,构建更智能的视觉解释应用。MLLM能够整合图像和文本信息,提供更全面、更细致的描述,从而提升用户体验。
技术框架:该研究开发了一款基于MLLM的视觉解释应用。用户通过该应用拍摄或上传图像,MLLM对图像进行分析,并生成相应的文本描述。用户可以通过语音或文本方式获取这些描述。研究人员通过日记研究收集用户反馈,评估应用的性能和用户满意度。
关键创新:该研究的关键创新在于将MLLM应用于视觉解释领域,并针对盲人和低视力人群的需求进行了优化。与传统的视觉解释方法相比,MLLM能够提供更丰富、更自然的描述,从而提升用户体验。
关键设计:目前论文只展示了初步分析结果,关于MLLM的具体选择、训练方式、以及如何针对盲人和低视力人群进行优化等技术细节未知。未来的研究可能会涉及损失函数的设计、网络结构的调整以及针对特定场景的优化策略。
🖼️ 关键图片
📊 实验亮点
初步分析显示,参与者对MLLM赋能的视觉解释应用表现出较高的信任度和满意度(平均信任度3.75/5,满意度4.15/5)。更重要的是,参与者在医疗剂量建议等高风险场景中也信任该应用,表明MLLM在提升视觉解释应用可靠性方面具有巨大潜力。但需要注意的是,这只是初步分析,样本量较小,结论的普适性有待进一步验证。
🎯 应用场景
该研究成果可应用于开发更智能、更可靠的视觉辅助工具,帮助盲人和低视力人群更好地理解周围环境,提高生活质量。例如,可以应用于智能眼镜、手机应用等设备,为用户提供实时的视觉信息,辅助他们进行导航、购物、社交等活动。此外,该技术还可以应用于其他领域,如智能安防、自动驾驶等。
📄 摘要(原文)
Blind and Low Vision (BLV) people have adopted AI-powered visual interpretation applications to address their daily needs. While these applications have been helpful, prior work has found that users remain unsatisfied by their frequent errors. Recently, multimodal large language models (MLLMs) have been integrated into visual interpretation applications, and they show promise for more descriptive visual interpretations. However, it is still unknown how this advancement has changed people's use of these applications. To address this gap, we conducted a two-week diary study in which 20 BLV people used an MLLM-enabled visual interpretation application we developed, and we collected 553 entries. In this paper, we report a preliminary analysis of 60 diary entries from 6 participants. We found that participants considered the application's visual interpretations trustworthy (mean 3.75 out of 5) and satisfying (mean 4.15 out of 5). Moreover, participants trusted our application in high-stakes scenarios, such as receiving medical dosage advice. We discuss our plan to complete our analysis to inform the design of future MLLM-enabled visual interpretation systems.