OCR-Enhanced Multimodal ASR Can Read While Listening

作者: Junli Chen, Changli Tang, Yixuan Li, Guangzhi Sun, Chao Zhang

分类: cs.SD, cs.CL, eess.AS

发布日期: 2026-01-26

备注: 4 pages, 2 figures. Submitted to ICASSP 2026

💡 一句话要点

提出Donut-Whisper模型，利用视觉信息提升多语种语音识别性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态语音识别 视觉信息融合 交叉注意力机制 知识蒸馏 音视频数据集

📋 核心要点

现有语音识别模型在复杂场景下性能受限，忽略了视频字幕等视觉信息的辅助作用。
Donut-Whisper模型融合音视频特征，通过交叉注意力机制实现模态对齐，提升特征表达能力。
实验表明，Donut-Whisper在多语种数据集上显著优于现有模型，尤其在中文识别上提升明显。

📝 摘要（中文）

本文提出Donut-Whisper，一种利用双编码器增强视觉信息的多模态语音识别模型，旨在提升英语和中文的语音识别性能。Donut-Whisper通过交叉注意力模块结合了线性结构和基于Q-Former的模态对齐结构的优势，从而生成更强大的音视频特征。同时，本文提出了一种轻量级的知识蒸馏方案，展示了使用音视频模型来指导纯音频模型以获得更好性能的潜力。此外，本文还提出了一个新的多语种音视频语音识别数据集，该数据集基于包含中文和英文片段的电影剪辑。实验结果表明，与Donut和Whisper large V3基线模型相比，Donut-Whisper在数据集的英文和中文部分均取得了显著更好的性能。特别是，与Whisper ASR基线相比，在英文和中文数据集上分别实现了5.75%的绝对WER降低和16.5%的绝对CER降低。

🔬 方法详解

问题定义：现有的自动语音识别（ASR）模型，尤其是在处理包含视觉信息的场景（如电影、视频会议等）时，往往忽略了视觉信息（例如字幕）的辅助作用。这些视觉信息可以提供额外的上下文线索，帮助模型更准确地识别语音。因此，如何有效地利用视觉信息来提升ASR模型的性能是一个重要的研究问题。

核心思路：Donut-Whisper的核心思路是构建一个能够同时处理音频和视觉信息的多模态ASR模型。该模型通过双编码器分别提取音频和视觉特征，并利用交叉注意力机制实现模态间的有效融合。此外，还提出了知识蒸馏方案，将多模态模型的知识迁移到纯音频模型，进一步提升性能。

技术框架：Donut-Whisper模型包含以下主要模块：1) 音频编码器：用于提取音频特征。2) 视觉编码器：用于提取视觉特征（例如，从视频帧中提取的文本信息）。3) 交叉注意力模块：用于融合音频和视觉特征，实现模态间的交互。4) 解码器：用于将融合后的特征解码为文本。整个流程是，首先分别使用音频和视觉编码器提取特征，然后通过交叉注意力模块进行融合，最后使用解码器生成识别结果。

关键创新：Donut-Whisper的关键创新在于：1) 提出了双编码器结构，能够同时处理音频和视觉信息。2) 利用交叉注意力模块实现了线性结构和基于Q-Former的模态对齐结构的优势结合，从而更有效地融合音视频特征。3) 提出了轻量级的知识蒸馏方案，能够将多模态模型的知识迁移到纯音频模型。

关键设计：在网络结构方面，Donut-Whisper采用了Transformer架构，并针对音视频模态的特点进行了优化。在损失函数方面，采用了交叉熵损失函数来训练模型。在训练过程中，使用了Adam优化器，并设置了合适的学习率和batch size。此外，为了防止过拟合，还使用了dropout等正则化技术。

🖼️ 关键图片

📊 实验亮点

Donut-Whisper模型在自建的多语种音视频数据集上取得了显著的性能提升。与Whisper ASR基线相比，在英文数据集上实现了5.75%的绝对WER降低，在中文数据集上实现了16.5%的绝对CER降低。这些结果表明，Donut-Whisper模型能够有效地利用视觉信息来提升语音识别性能，尤其是在中文语音识别方面表现突出。

🎯 应用场景

该研究成果可应用于多媒体内容理解、视频会议字幕生成、在线教育等领域。通过结合视觉信息，可以显著提升语音识别的准确率，尤其是在噪声环境或口音复杂的情况下。未来，该技术有望应用于更广泛的音视频场景，例如智能家居、车载语音助手等，提升人机交互的自然性和准确性。

📄 摘要（原文）

Visual information, such as subtitles in a movie, often helps automatic speech recognition. In this paper, we propose Donut-Whisper, an audio-visual ASR model with dual encoder to leverage visual information to improve speech recognition performance in both English and Chinese. Donut-Whisper combines the advantage of the linear and the Q-Former-based modality alignment structures via a cross-attention module, generating more powerful audio-visual features. Meanwhile, we propose a lightweight knowledge distillation scheme showcasing the potential of using audio-visual models to teach audio-only models to achieve better performance. Moreover, we propose a new multilingual audio-visual speech recognition dataset based on movie clips containing both Chinese and English partitions. As a result, Donut-Whisper achieved significantly better performance on both English and Chinese partition of the dataset compared to both Donut and Whisper large V3 baselines. In particular, an absolute 5.75% WER reduction and a 16.5% absolute CER reduction were achieved on the English and Chinese sets respectively compared to the Whisper ASR baseline.

OCR-Enhanced Multimodal ASR Can Read While Listening

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理