Sanvaad: A Multimodal Accessibility Framework for ISL Recognition and Voice-Based Interaction

📄 arXiv: 2512.06485v1 📥 PDF

作者: Kush Revankar, Shreyas Deshpande, Araham Sayeed, Ansh Tandale, Sarika Bobde

分类: cs.CV

发布日期: 2025-12-06


💡 一句话要点

Sanvaad:一个用于ISL识别和语音交互的多模态可访问性框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态交互 手语识别 语音识别 可访问性 边缘计算

📋 核心要点

  1. 现有工具通常仅支持单向交互,无法满足听障、视障用户与健听人群双向交流的需求。
  2. Sanvaad框架利用MediaPipe进行手语识别,并结合语音转手语和语音交互,实现双向多模态交流。
  3. 该框架在边缘设备上运行流畅,并提供桌面和移动环境下的可用性,具有良好的实用性。

📝 摘要(中文)

本文提出Sanvaad,一个轻量级多模态可访问性框架,旨在支持实时双向通信,解决听障用户、视障用户和普通听力人群之间的交流障碍。对于听障用户,Sanvaad包含一个基于MediaPipe地标的ISL(印度手语)识别模块,选择MediaPipe是因为其高效性和低计算负载,使系统能够在边缘设备上流畅运行。语音输入可以通过语音转手语组件转换为手语表示,该组件将检测到的语音映射到预定义的短语,并生成相应的GIF或基于字母的可视化。对于视障用户,该框架提供了一个无屏幕语音界面,集成了多语言语音识别、文本摘要和文本到语音生成。这些组件通过基于Streamlit的界面协同工作,使系统可在桌面和移动环境中使用。总体而言,Sanvaad旨在通过在一个统一的框架内结合轻量级计算机视觉和语音处理工具,为包容性通信提供一种实用且可访问的途径。

🔬 方法详解

问题定义:现有辅助交流工具通常只支持单向交流,例如语音转文字或文字转语音,无法满足听障人士和视障人士与健听人士进行双向、实时交流的需求。此外,现有方案可能需要专用硬件或计算资源,限制了其在边缘设备上的应用。

核心思路:Sanvaad的核心思路是构建一个轻量级、多模态的框架,整合计算机视觉和语音处理技术,实现听障人士和视障人士与健听人士之间的双向交流。该框架利用MediaPipe进行高效的手语识别,并结合语音转手语和语音交互功能,提供灵活的交流方式。

技术框架:Sanvaad框架包含以下主要模块: 1. ISL识别模块:使用MediaPipe地标检测技术识别印度手语。 2. 语音转手语模块:将语音输入转换为手语表示(GIF或字母可视化)。 3. 语音交互模块:为视障用户提供无屏幕语音界面,包括语音识别、文本摘要和文本到语音转换。 4. Streamlit界面:提供桌面和移动环境下的用户界面。

关键创新:Sanvaad的关键创新在于其轻量级和多模态的设计,以及在边缘设备上的高效运行。它将计算机视觉和语音处理技术整合到一个统一的框架中,为听障人士和视障人士提供了一种实用且可访问的交流途径。此外,使用MediaPipe进行手语识别,降低了计算成本,使其能够在资源受限的设备上运行。

关键设计: * MediaPipe地标检测:使用MediaPipe进行手部和面部关键点检测,用于手语识别。 * 语音转手语映射:建立语音短语到手语GIF或字母可视化的映射关系,具体映射方法未知。 * 多语言语音识别:支持多种语言的语音输入,具体使用的语音识别模型未知。 * 文本摘要:对文本进行摘要,方便视障用户快速获取信息,具体摘要算法未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文重点在于框架设计和功能集成,并未提供具体的性能数据。亮点在于使用MediaPipe实现了轻量级的手语识别模块,使其能够在边缘设备上运行。通过整合语音转手语和语音交互功能,为听障人士和视障人士提供了一种多模态的交流方式,提升了用户体验。

🎯 应用场景

Sanvaad框架可应用于多种场景,例如:教育领域,帮助听障学生和老师进行交流;医疗领域,方便医护人员与听障患者沟通;公共服务领域,为听障人士提供无障碍服务。该研究有助于提升社会包容性,促进不同群体之间的交流与理解,具有重要的社会价值和应用前景。

📄 摘要(原文)

Communication between deaf users, visually im paired users, and the general hearing population often relies on tools that support only one direction of interaction. To address this limitation, this work presents Sanvaad, a lightweight multimodal accessibility framework designed to support real time, two-way communication. For deaf users, Sanvaad includes an ISL recognition module built on MediaPipe landmarks. MediaPipe is chosen primarily for its efficiency and low computational load, enabling the system to run smoothly on edge devices without requiring dedicated hardware. Spoken input from a phone can also be translated into sign representations through a voice-to-sign component that maps detected speech to predefined phrases and produces corresponding GIFs or alphabet-based visualizations. For visually impaired users, the framework provides a screen free voice interface that integrates multilingual speech recognition, text summarization, and text-to-speech generation. These components work together through a Streamlit-based interface, making the system usable on both desktop and mobile environments. Overall, Sanvaad aims to offer a practical and accessible pathway for inclusive communication by combining lightweight computer vision and speech processing tools within a unified framework.