Diffusion Large Language Models for Visual Speech Recognition
作者: Jeong Hun Yeo, Chae Won Kim, Hyeongseop Rha, Yong Man Ro
分类: cs.AI, cs.CV, eess.AS
发布日期: 2026-05-27
备注: Code: https://github.com/JeongHun0716/dllm-vsr
💡 一句话要点
提出基于扩散大语言模型的视觉语音识别框架DLLM-VSR,解决传统自回归解码的局限性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语音识别 扩散模型 大语言模型 掩码去噪 置信度学习
📋 核心要点
- 传统VSR系统依赖自回归解码,易受视觉模糊token的早期决策影响,限制了性能。
- DLLM-VSR采用扩散大语言模型,通过迭代掩码去噪和置信度unmasking实现灵活解码。
- 提出的方法在LRS3数据集上取得了19.5%的WER,达到了当前最佳水平。
📝 摘要(中文)
现有的视觉语音识别(VSR)系统通常依赖于从左到右的自回归解码,这可能导致在获得足够的上下文信息之前,对视觉上模糊的token做出过早的决策。我们提出了DLLM-VSR,据我们所知,这是第一个基于扩散大语言模型(DLLM)的VSR框架,将转录任务建模为具有灵活顺序解码的迭代掩码去噪过程。通过基于置信度的unmasking,DLLM-VSR提前确定高置信度的位置,并使用已确定的token作为双向上下文来细化模糊的token。为了使DLLM适应VSR,我们引入了一种两阶段的掩码去噪训练策略,将视觉到文本的内容对齐与长度建模分离。我们进一步观察到与oracle-length解码(假设可以访问真实的转录长度)存在性能差距,这表明减少目标长度的不确定性可以提高基于DLLM的VSR性能。为了缩小这一差距,我们开发了长度引导的候选解码,该方法使用视频时长来构建合理的转录长度假设,在多个假设下进行解码,并使用长度合理性和解码置信度对候选进行重新排序。所提出的方法仅使用LRS3的标记训练数据,就实现了19.5%的最先进的WER。
🔬 方法详解
问题定义:现有的视觉语音识别系统通常采用自回归解码方式,这种方式从左到右逐个预测token。然而,在视觉信息不清晰的情况下,过早地对某些token做出决策可能会影响后续token的预测,导致错误累积。此外,自回归模型难以利用双向上下文信息,限制了其性能。
核心思路:DLLM-VSR的核心思路是将视觉语音识别问题转化为一个迭代的掩码去噪过程。通过扩散模型,逐步恢复被mask的token,并利用已恢复的token作为上下文信息来辅助后续token的预测。这种方式允许模型在获得更充分的上下文信息后再进行决策,从而提高识别准确率。
技术框架:DLLM-VSR框架主要包含以下几个模块:1) 视觉特征提取模块,用于从视频中提取视觉特征;2) 扩散大语言模型(DLLM),用于进行迭代的掩码去噪;3) 置信度估计模块,用于评估每个token的置信度,并根据置信度进行unmasking;4) 长度引导的候选解码模块,用于根据视频时长生成候选的转录长度,并在多个长度假设下进行解码。
关键创新:该论文的关键创新在于:1) 首次将扩散大语言模型应用于视觉语音识别任务;2) 提出了基于置信度的unmasking策略,允许模型优先恢复高置信度的token,并利用这些token作为上下文信息来辅助低置信度token的恢复;3) 提出了两阶段的掩码去噪训练策略,将视觉到文本的内容对齐与长度建模分离;4) 提出了长度引导的候选解码方法,利用视频时长信息来减少目标长度的不确定性。
关键设计:在训练阶段,采用了两阶段的掩码去噪训练策略。第一阶段,模型学习视觉特征与文本内容之间的对齐关系。第二阶段,模型学习文本的长度分布。在解码阶段,采用了长度引导的候选解码方法。首先,根据视频时长生成多个候选的转录长度。然后,在每个长度假设下,使用DLLM进行解码。最后,根据长度合理性和解码置信度对候选进行重新排序,选择最优的转录结果。
🖼️ 关键图片
📊 实验亮点
DLLM-VSR在LRS3数据集上取得了显著的性能提升,WER降低至19.5%,超越了以往的state-of-the-art方法。该结果仅使用LRS3的标记训练数据,表明了该方法在数据利用方面的优势。长度引导的候选解码方法有效地缩小了与oracle-length解码的性能差距,验证了减少目标长度不确定性的有效性。
🎯 应用场景
该研究成果可应用于语音助手、视频字幕生成、人机交互等领域。通过提高视觉语音识别的准确率,可以改善用户体验,并为听力障碍人士提供更好的辅助工具。未来,该技术有望在智能家居、自动驾驶等领域发挥重要作用。
📄 摘要(原文)
Existing Visual Speech Recognition (VSR) systems commonly rely on left-to-right autoregressive decoding, which can force premature decisions on visually ambiguous tokens before sufficient context is available. We propose DLLM-VSR, to the best of our knowledge, the first Diffusion Large Language Model (DLLM)-based VSR framework, formulating transcription as iterative masked denoising with flexible-order decoding. With confidence-based unmasking, DLLM-VSR commits high-confidence positions early and uses the committed tokens as bidirectional context to refine ambiguous ones. To adapt DLLMs to VSR, we introduce a two-stage masked-denoising training strategy that separates visual-to-text content alignment from length modeling. We further observe a performance gap with oracle-length decoding, which assumes access to the true transcript length, indicating that reducing target-length uncertainty can improve DLLM-based VSR. To reduce this gap, we develop length-guided candidate decoding, which uses video duration to construct plausible transcript-length hypotheses, decodes under multiple hypotheses, and reranks candidates using length plausibility and decoding confidence. The proposed method achieves a state-of-the-art WER of 19.5\% on LRS3 using only its labeled training data.