VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments
作者: Bufang Yang, Lixing He, Kaiwei Liu, Zhenyu Yan
分类: cs.CV, cs.AI, cs.LG
发布日期: 2024-04-03
备注: Accepted to IEEE International Workshop on Foundation Models for Cyber-Physical Systems & Internet of Things (FMSys 2024)
💡 一句话要点
提出VIAssist以帮助视觉障碍者利用多模态大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉障碍 多模态大语言模型 视觉问答 图像识别 辅助技术 信息获取 用户体验
📋 核心要点
- 现有方法在帮助视觉障碍者使用多模态大语言模型时面临挑战,尤其是在获取所需图像方面。
- 本文提出VIAssist,通过识别不合适的图像并提供详细操作,帮助视觉障碍者更好地利用MLLMs。
- 实验结果显示,VIAssist在BERTScore和ROUGE分数上分别比基线提高了0.21和0.31,验证了其有效性。
📝 摘要(中文)
视觉障碍者(VI)包括部分或完全失去视觉感知能力的人,全球约有22亿人受到影响。近年来,多模态大语言模型(MLLMs)在多个领域展现出卓越的能力,然而,VI人士在使用这些模型时面临挑战,尤其是在获取所需图像以满足日常需求方面。本文探讨如何利用MLLMs为VI人士提供视觉问答服务。VIAssist能够识别不合适的图像并提供详细的操作建议,最终基于图像为用户的查询提供可靠的答案。研究结果表明,VIAssist在BERTScore和ROUGE分数上分别比基线提高了0.21和0.31。
🔬 方法详解
问题定义:本文旨在解决视觉障碍者在使用多模态大语言模型时面临的图像获取困难,现有方法未能有效满足其需求。
核心思路:VIAssist通过识别不合适的图像并提供详细的操作建议,帮助视觉障碍者获取所需信息,从而提升其使用体验。
技术框架:VIAssist的整体架构包括图像识别模块、操作建议生成模块和问答模块,形成一个闭环系统,确保用户能够顺利获取所需信息。
关键创新:VIAssist的主要创新在于其能够自动识别不合适的图像并提供具体的操作建议,这一功能在现有方法中尚未实现。
关键设计:在模型设计中,采用了特定的损失函数来优化图像识别的准确性,并结合多模态特征融合技术,以提升问答的准确性和可靠性。
📊 实验亮点
VIAssist在实验中表现出色,BERTScore和ROUGE分数分别比基线提高了0.21和0.31,显示出其在视觉问答任务中的有效性和可靠性。这一提升证明了VIAssist在帮助视觉障碍者使用多模态大语言模型方面的潜力。
🎯 应用场景
VIAssist的研究成果具有广泛的应用潜力,尤其是在辅助技术领域。该系统可以帮助视觉障碍者更好地获取信息,提升他们的生活质量。此外,VIAssist的技术框架也可扩展到其他需要视觉理解的场景,如智能家居、教育和医疗等领域,未来可能对社会产生积极影响。
📄 摘要(原文)
Individuals with visual impairments, encompassing both partial and total difficulties in visual perception, are referred to as visually impaired (VI) people. An estimated 2.2 billion individuals worldwide are affected by visual impairments. Recent advancements in multi-modal large language models (MLLMs) have showcased their extraordinary capabilities across various domains. It is desirable to help VI individuals with MLLMs' great capabilities of visual understanding and reasoning. However, it is challenging for VI people to use MLLMs due to the difficulties in capturing the desirable images to fulfill their daily requests. For example, the target object is not fully or partially placed in the image. This paper explores how to leverage MLLMs for VI individuals to provide visual-question answers. VIAssist can identify undesired images and provide detailed actions. Finally, VIAssist can provide reliable answers to users' queries based on the images. Our results show that VIAssist provides +0.21 and +0.31 higher BERTScore and ROUGE scores than the baseline, respectively.