ViDove: A Translation Agent System with Multimodal Context and Memory-Augmented Reasoning

📄 arXiv: 2507.07306v1 📥 PDF

作者: Yichen Lu, Wei Dai, Jiaen Liu, Ching Wing Kwok, Zongheng Wu, Xudong Xiao, Ao Sun, Sheng Fu, Jianyuan Zhan, Yian Wang, Takatomo Saito, Sicheng Lai

分类: cs.AI, cs.CL, eess.AS

发布日期: 2025-07-09

🔗 代码/项目: GITHUB


💡 一句话要点

ViDove:一种具有多模态上下文和记忆增强推理的翻译Agent系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态翻译 翻译Agent 视觉上下文 记忆增强 长视频字幕 大型语言模型 领域知识 DoveBench

📋 核心要点

  1. 现有基于LLM的翻译Agent通常仅限于文本输入,无法有效利用视觉信息。
  2. ViDove通过整合视觉上下文信息和多模态记忆系统,模拟人类翻译流程,提升翻译质量。
  3. 实验表明,ViDove在字幕生成和通用翻译任务中显著优于现有方法,并在DoveBench上进行了验证。

📝 摘要(中文)

本文介绍了一种名为ViDove的翻译Agent系统,该系统专为多模态输入而设计。受人工翻译工作流程的启发,ViDove利用视觉和上下文背景信息来增强翻译过程。此外,我们还集成了一个多模态记忆系统和富含领域知识的长短期记忆模块,使Agent能够在实际场景中更准确、更自适应地执行翻译任务。结果表明,ViDove在字幕生成和通用翻译任务中都实现了显著更高的翻译质量,BLEU得分提高了28%,SubER降低了15%,优于以往最先进的基线模型。此外,我们还推出了DoveBench,这是一个用于长视频自动字幕和翻译的新基准,包含17小时高质量、人工标注的数据。代码已开源。

🔬 方法详解

问题定义:现有基于大型语言模型(LLM)的翻译Agent主要依赖文本输入,忽略了视频中蕴含的视觉信息和上下文背景,这限制了其在多模态场景下的翻译能力,尤其是在长视频字幕生成等任务中。此外,现有方法缺乏有效的记忆机制,难以处理长文本中的一致性和领域知识。

核心思路:ViDove的核心思路是模拟人类翻译员的工作流程,将视觉信息、上下文信息和领域知识融入翻译过程中。通过构建多模态记忆系统,Agent可以记住并利用之前翻译的信息,从而提高翻译的一致性和准确性。同时,利用领域知识增强的LSTM模块,提升Agent对特定领域术语的理解和翻译能力。

技术框架:ViDove系统包含以下主要模块:1) 多模态输入模块:接收文本和视觉信息作为输入。2) 上下文理解模块:利用LLM理解文本上下文,提取关键信息。3) 视觉信息处理模块:提取视频帧的视觉特征,例如物体、场景等。4) 多模态记忆模块:存储和检索之前翻译的信息,包括文本、视觉特征和上下文信息。5) 翻译模块:基于LLM,结合上下文信息、视觉特征和记忆信息进行翻译。6) 领域知识增强模块:利用领域知识库增强LSTM模块,提高翻译的准确性。

关键创新:ViDove的关键创新在于:1) 提出了一个多模态翻译Agent系统,能够有效利用视觉信息和上下文信息进行翻译。2) 构建了一个多模态记忆系统,能够记住并利用之前翻译的信息,提高翻译的一致性和准确性。3) 利用领域知识增强LSTM模块,提升Agent对特定领域术语的理解和翻译能力。

关键设计:多模态记忆模块采用键值对存储结构,键为上下文信息,值为之前翻译的信息(文本、视觉特征等)。记忆检索采用相似度匹配算法,选择与当前上下文最相似的记忆信息。领域知识增强模块通过将领域知识嵌入到LSTM的词向量中,提高LSTM对领域术语的理解能力。损失函数包括翻译损失和记忆损失,其中翻译损失用于优化翻译质量,记忆损失用于优化记忆模块的检索能力。

🖼️ 关键图片

img_0

📊 实验亮点

ViDove在字幕生成和通用翻译任务中取得了显著的性能提升。在字幕生成任务中,ViDove的BLEU得分比现有最佳基线提高了28%,SubER降低了15%。在通用翻译任务中,ViDove也取得了类似的性能提升。此外,DoveBench数据集的发布为长视频自动字幕和翻译的研究提供了新的基准。

🎯 应用场景

ViDove具有广泛的应用前景,包括自动视频字幕生成、多语言会议同传、跨文化交流等。该系统可以应用于在线教育、娱乐、新闻等领域,帮助人们更好地理解和交流不同语言和文化的内容。未来,ViDove可以进一步扩展到更多模态的输入,例如语音、手势等,实现更自然、更智能的翻译。

📄 摘要(原文)

LLM-based translation agents have achieved highly human-like translation results and are capable of handling longer and more complex contexts with greater efficiency. However, they are typically limited to text-only inputs. In this paper, we introduce ViDove, a translation agent system designed for multimodal input. Inspired by the workflow of human translators, ViDove leverages visual and contextual background information to enhance the translation process. Additionally, we integrate a multimodal memory system and long-short term memory modules enriched with domain-specific knowledge, enabling the agent to perform more accurately and adaptively in real-world scenarios. As a result, ViDove achieves significantly higher translation quality in both subtitle generation and general translation tasks, with a 28% improvement in BLEU scores and a 15% improvement in SubER compared to previous state-of-the-art baselines. Moreover, we introduce DoveBench, a new benchmark for long-form automatic video subtitling and translation, featuring 17 hours of high-quality, human-annotated data. Our code is available here: https://github.com/pigeonai-org/ViDove