Generating Signed Language Instructions in Large-Scale Dialogue Systems

作者: Mert İnan, Katherine Atwell, Anthony Sicilia, Lorna Quandt, Malihe Alikhani

分类: cs.CL, cs.AI, cs.CY, cs.HC

发布日期: 2024-10-17

备注: 2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2024) Industry Track

🔗 代码/项目: GITHUB | HUGGINGFACE

💡 一句话要点

构建基于大型对话系统的手语指令生成系统，提升多模态交互体验。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 手语翻译 大型语言模型 视频检索 对话系统 多模态交互

📋 核心要点

现有对话系统缺乏对手语的支持，限制了聋人和听障人士的使用，存在可访问性问题。
利用大型语言模型进行手语翻译，并结合视频检索，生成易于理解的手语指令。
用户反馈表明，该系统生成的手语指令质量与非手语版本相当，检索准确率高。

📝 摘要（中文）

本文介绍了一个增强了美国手语（ASL）指令的、面向目标的会话AI系统，这是此类系统在全球多模态会话AI平台上的首次实现。该系统通过触摸界面接收用户输入，并利用检索方法和基于认知的手语翻译无缝生成ASL指令。设计的核心是一个由大型语言模型驱动的手语翻译模块，以及一个基于token的视频检索系统，用于从食谱和 wikiHow 指南中传递教学内容。开发过程深入扎根于社区参与，融合了来自聋人和听障人士社区以及认知和ASL学习科学专家的见解。用户反馈验证了手语指令的有效性，其评分与非手语变体的系统相当。此外，该系统在检索准确性和文本生成质量方面表现出卓越的性能，通过BERTScore等指标衡量。代码库和数据集已公开，手语指令视频检索系统的演示可在Hugging Face上找到。

🔬 方法详解

问题定义：论文旨在解决面向目标的大型对话系统中，如何为聋人和听障人士提供可访问的手语指令的问题。现有对话系统主要依赖于文本或语音输出，无法直接服务于手语使用者，存在严重的可访问性障碍。因此，需要一种能够将自然语言指令转换为手语指令的系统。

核心思路：论文的核心思路是结合大型语言模型（LLM）的手语翻译能力和视频检索技术，构建一个能够根据用户输入生成相应手语指令视频的系统。通过LLM将文本指令翻译成手语glosses（手语词汇的文本表示），然后利用glosses检索预先录制的手语视频片段，最终组合成完整的手语指令。

技术框架：该系统的整体框架包含以下几个主要模块： 1. 用户输入模块：接收用户的文本输入。 2. 手语翻译模块：使用大型语言模型将文本指令翻译成手语glosses序列。 3. 视频检索模块：根据glosses序列，从预先构建的手语视频库中检索相关的视频片段。 4. 视频组合模块：将检索到的视频片段按照glosses序列进行组合，生成完整的手语指令视频。 5. 输出模块：将生成的手语指令视频呈现给用户。

关键创新：该论文的关键创新在于将大型语言模型应用于手语翻译，并将其与视频检索技术相结合，构建了一个端到端的手语指令生成系统。与传统的手语翻译方法相比，该方法能够更好地利用LLM的上下文理解能力和生成能力，从而生成更自然、更准确的手语指令。

关键设计： * 手语翻译模块：使用预训练的大型语言模型，并针对手语翻译任务进行微调。具体使用的LLM类型和微调策略未知。 * 视频检索模块：采用基于token的视频检索方法，将glosses序列转换为token序列，然后利用token序列在视频库中进行检索。具体的token化方法和检索算法未知。 * 视频库构建：从食谱和 wikiHow 指南等来源收集手语视频片段，并进行标注和索引。视频片段的质量和覆盖范围对系统性能至关重要。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该系统生成的手语指令质量与非手语版本相当，用户反馈良好。在检索准确性和文本生成质量方面，该系统表现出卓越的性能，通过BERTScore等指标衡量。具体的性能数据和对比基线未知，但用户反馈表明该系统具有实际应用价值。

🎯 应用场景

该研究成果可应用于各种需要提供指令或信息的场景，例如在线教育、客户服务、智能家居控制等，为聋人和听障人士提供更加便捷和无障碍的交互体验。未来，该技术有望进一步发展，实现更加自然、流畅的手语生成，并支持更多手语种类。

📄 摘要（原文）

We introduce a goal-oriented conversational AI system enhanced with American Sign Language (ASL) instructions, presenting the first implementation of such a system on a worldwide multimodal conversational AI platform. Accessible through a touch-based interface, our system receives input from users and seamlessly generates ASL instructions by leveraging retrieval methods and cognitively based gloss translations. Central to our design is a sign translation module powered by Large Language Models, alongside a token-based video retrieval system for delivering instructional content from recipes and wikiHow guides. Our development process is deeply rooted in a commitment to community engagement, incorporating insights from the Deaf and Hard-of-Hearing community, as well as experts in cognitive and ASL learning sciences. The effectiveness of our signing instructions is validated by user feedback, achieving ratings on par with those of the system in its non-signing variant. Additionally, our system demonstrates exceptional performance in retrieval accuracy and text-generation quality, measured by metrics such as BERTScore. We have made our codebase and datasets publicly accessible at https://github.com/Merterm/signed-dialogue, and a demo of our signed instruction video retrieval system is available at https://huggingface.co/spaces/merterm/signed-instructions.

Generating Signed Language Instructions in Large-Scale Dialogue Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理