Diffusion Large Language Models for Visual Speech Recognition

作者: Jeong Hun Yeo, Chae Won Kim, Hyeongseop Rha, Yong Man Ro

分类: cs.AI, cs.CV, eess.AS

发布日期: 2026-05-27

备注: Code: https://github.com/JeongHun0716/dllm-vsr

💡 一句话要点

提出基于扩散大语言模型的视觉语音识别框架DLLM-VSR，解决传统自回归解码的局限性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语音识别 扩散模型 大语言模型 掩码去噪 置信度学习

📋 核心要点

传统VSR系统依赖自回归解码，易受视觉模糊token的早期决策影响，限制了性能。
DLLM-VSR采用扩散大语言模型，通过迭代掩码去噪和置信度unmasking实现灵活解码。
提出的方法在LRS3数据集上取得了19.5%的WER，达到了当前最佳水平。

📝 摘要（中文）

现有的视觉语音识别（VSR）系统通常依赖于从左到右的自回归解码，这可能导致在获得足够的上下文信息之前，对视觉上模糊的token做出过早的决策。我们提出了DLLM-VSR，据我们所知，这是第一个基于扩散大语言模型（DLLM）的VSR框架，将转录任务建模为具有灵活顺序解码的迭代掩码去噪过程。通过基于置信度的unmasking，DLLM-VSR提前确定高置信度的位置，并使用已确定的token作为双向上下文来细化模糊的token。为了使DLLM适应VSR，我们引入了一种两阶段的掩码去噪训练策略，将视觉到文本的内容对齐与长度建模分离。我们进一步观察到与oracle-length解码（假设可以访问真实的转录长度）存在性能差距，这表明减少目标长度的不确定性可以提高基于DLLM的VSR性能。为了缩小这一差距，我们开发了长度引导的候选解码，该方法使用视频时长来构建合理的转录长度假设，在多个假设下进行解码，并使用长度合理性和解码置信度对候选进行重新排序。所提出的方法仅使用LRS3的标记训练数据，就实现了19.5%的最先进的WER。

🔬 方法详解

问题定义：现有的视觉语音识别系统通常采用自回归解码方式，这种方式从左到右逐个预测token。然而，在视觉信息不清晰的情况下，过早地对某些token做出决策可能会影响后续token的预测，导致错误累积。此外，自回归模型难以利用双向上下文信息，限制了其性能。

核心思路：DLLM-VSR的核心思路是将视觉语音识别问题转化为一个迭代的掩码去噪过程。通过扩散模型，逐步恢复被mask的token，并利用已恢复的token作为上下文信息来辅助后续token的预测。这种方式允许模型在获得更充分的上下文信息后再进行决策，从而提高识别准确率。

技术框架：DLLM-VSR框架主要包含以下几个模块：1) 视觉特征提取模块，用于从视频中提取视觉特征；2) 扩散大语言模型（DLLM），用于进行迭代的掩码去噪；3) 置信度估计模块，用于评估每个token的置信度，并根据置信度进行unmasking；4) 长度引导的候选解码模块，用于根据视频时长生成候选的转录长度，并在多个长度假设下进行解码。

关键创新：该论文的关键创新在于：1) 首次将扩散大语言模型应用于视觉语音识别任务；2) 提出了基于置信度的unmasking策略，允许模型优先恢复高置信度的token，并利用这些token作为上下文信息来辅助低置信度token的恢复；3) 提出了两阶段的掩码去噪训练策略，将视觉到文本的内容对齐与长度建模分离；4) 提出了长度引导的候选解码方法，利用视频时长信息来减少目标长度的不确定性。

关键设计：在训练阶段，采用了两阶段的掩码去噪训练策略。第一阶段，模型学习视觉特征与文本内容之间的对齐关系。第二阶段，模型学习文本的长度分布。在解码阶段，采用了长度引导的候选解码方法。首先，根据视频时长生成多个候选的转录长度。然后，在每个长度假设下，使用DLLM进行解码。最后，根据长度合理性和解码置信度对候选进行重新排序，选择最优的转录结果。

🖼️ 关键图片

📊 实验亮点

DLLM-VSR在LRS3数据集上取得了显著的性能提升，WER降低至19.5%，超越了以往的state-of-the-art方法。该结果仅使用LRS3的标记训练数据，表明了该方法在数据利用方面的优势。长度引导的候选解码方法有效地缩小了与oracle-length解码的性能差距，验证了减少目标长度不确定性的有效性。

🎯 应用场景

该研究成果可应用于语音助手、视频字幕生成、人机交互等领域。通过提高视觉语音识别的准确率，可以改善用户体验，并为听力障碍人士提供更好的辅助工具。未来，该技术有望在智能家居、自动驾驶等领域发挥重要作用。

📄 摘要（原文）

Existing Visual Speech Recognition (VSR) systems commonly rely on left-to-right autoregressive decoding, which can force premature decisions on visually ambiguous tokens before sufficient context is available. We propose DLLM-VSR, to the best of our knowledge, the first Diffusion Large Language Model (DLLM)-based VSR framework, formulating transcription as iterative masked denoising with flexible-order decoding. With confidence-based unmasking, DLLM-VSR commits high-confidence positions early and uses the committed tokens as bidirectional context to refine ambiguous ones. To adapt DLLMs to VSR, we introduce a two-stage masked-denoising training strategy that separates visual-to-text content alignment from length modeling. We further observe a performance gap with oracle-length decoding, which assumes access to the true transcript length, indicating that reducing target-length uncertainty can improve DLLM-based VSR. To reduce this gap, we develop length-guided candidate decoding, which uses video duration to construct plausible transcript-length hypotheses, decodes under multiple hypotheses, and reranks candidates using length plausibility and decoding confidence. The proposed method achieves a state-of-the-art WER of 19.5\% on LRS3 using only its labeled training data.

Diffusion Large Language Models for Visual Speech Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理