Expand BERT Representation with Visual Information via Grounded Language Learning with Multimodal Partial Alignment

📄 arXiv: 2312.01592v2 📥 PDF

作者: Cong-Duy Nguyen, The-Anh Vu-Le, Thong Nguyen, Tho Quan, Luu Anh Tuan

分类: cs.CL

发布日期: 2023-12-04 (更新: 2024-01-09)


💡 一句话要点

GroundedBERT:利用多模态部分对齐扩展BERT的视觉信息表示

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言学习 BERT 最优传输 多模态对齐 Grounded Language Learning

📋 核心要点

  1. 现有视觉-语言模型易混淆视觉数据与非视觉数据的上下文,导致视觉信息与句子语义不匹配。
  2. GroundedBERT 通过独立的 BERT 和视觉 grounding 模块,分别学习上下文表示和视觉信息。
  3. 采用部分最优传输(Partial OT)解决视觉和语言模态间的部分对齐问题,并在 GLUE 和 SQuAD 上取得显著提升。

📝 摘要(中文)

现有的视觉-语言学习研究通常使用语言模型,并同时采用语言目标和视觉 grounding 进行监督。然而,由于视觉 grounding 数据集和语言语料库在分布和规模上的差异,语言模型容易混淆在 grounded 数据中出现的 token 的上下文与未出现的 token 的上下文。因此,在表示学习过程中,视觉信息和句子的上下文含义之间存在不匹配。为了克服这一限制,我们提出了 GroundedBERT,一种 grounded 语言学习方法,通过视觉 grounded 信息增强 BERT 表示。GroundedBERT 包括两个组成部分:(i)原始 BERT,它捕获从语言语料库中学习的单词的上下文表示;(ii)视觉 grounding 模块,它捕获从视觉 grounded 数据集中学习的视觉信息。此外,我们采用最优传输(OT),特别是其部分变体,来解决两种模态之间的部分对齐问题。我们提出的方法在 GLUE 和 SQuAD 数据集的各种语言任务上显著优于基线语言模型。

🔬 方法详解

问题定义:现有视觉-语言模型在融合视觉信息时,容易混淆视觉 grounding 数据和纯语言数据,导致模型无法有效区分两种数据的上下文,最终影响模型性能。具体来说,模型难以区分哪些 token 应该与视觉信息对齐,哪些不应该。

核心思路:GroundedBERT 的核心思路是将语言上下文学习和视觉信息学习解耦。它使用原始 BERT 学习语言上下文表示,并使用独立的视觉 grounding 模块学习视觉信息。然后,通过最优传输方法将两种模态的信息进行对齐,从而避免了直接融合可能导致的上下文混淆。

技术框架:GroundedBERT 的整体框架包含两个主要模块:(1) 原始 BERT 模块,用于捕获输入文本的上下文表示;(2) 视觉 grounding 模块,用于提取图像的视觉特征。这两个模块独立训练,分别学习语言和视觉信息。最后,使用最优传输(OT)方法,特别是其部分变体,将两种模态的表示进行对齐和融合。

关键创新:GroundedBERT 的关键创新在于使用部分最优传输(Partial OT)来解决视觉和语言模态之间的部分对齐问题。与传统的完全对齐方法不同,Partial OT 允许模型只对齐部分 token 和视觉区域,从而更好地处理视觉信息与文本之间的对应关系。这种方法能够更准确地将视觉信息融入到语言表示中。

关键设计:GroundedBERT 使用预训练的 BERT 模型作为语言编码器。视觉 grounding 模块可以使用各种图像特征提取器,例如 ResNet 或 Faster R-CNN。Partial OT 的目标函数旨在最小化两种模态表示之间的距离,同时允许部分 token 不与任何视觉区域对齐。损失函数的设计需要平衡对齐的准确性和未对齐 token 的惩罚。

📊 实验亮点

GroundedBERT 在 GLUE 和 SQuAD 数据集上取得了显著的性能提升。实验结果表明,GroundedBERT 优于基线语言模型,验证了其有效性。具体的性能数据和提升幅度在论文中详细给出,证明了该方法在视觉-语言任务中的优越性。

🎯 应用场景

GroundedBERT 可应用于各种需要视觉信息辅助的自然语言处理任务,例如视觉问答、图像描述生成、视觉对话等。该方法能够提升模型对多模态信息的理解能力,从而改善这些任务的性能。未来,该研究可以扩展到更多模态,例如音频和视频,以构建更强大的多模态理解模型。

📄 摘要(原文)

Language models have been supervised with both language-only objective and visual grounding in existing studies of visual-grounded language learning. However, due to differences in the distribution and scale of visual-grounded datasets and language corpora, the language model tends to mix up the context of the tokens that occurred in the grounded data with those that do not. As a result, during representation learning, there is a mismatch between the visual information and the contextual meaning of the sentence. To overcome this limitation, we propose GroundedBERT - a grounded language learning method that enhances the BERT representation with visually grounded information. GroundedBERT comprises two components: (i) the original BERT which captures the contextual representation of words learned from the language corpora, and (ii) a visual grounding module which captures visual information learned from visual-grounded datasets. Moreover, we employ Optimal Transport (OT), specifically its partial variant, to solve the fractional alignment problem between the two modalities. Our proposed method significantly outperforms the baseline language models on various language tasks of the GLUE and SQuAD datasets.