Training on Synthetic Data Beats Real Data in Multimodal Relation Extraction

作者: Zilin Du, Haoxin Li, Xu Guo, Boyang Li

分类: cs.AI, cs.CL, cs.CV, cs.LG

发布日期: 2023-12-05

💡 一句话要点

提出MI2RAGE，利用互信息指导的合成数据生成，显著提升多模态关系抽取性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态关系抽取 合成数据 互信息 跨模态生成 数据增强 链式生成 单模态数据

📋 核心要点

多模态关系抽取面临数据匮乏难题，现有方法难以有效利用单模态数据进行跨模态知识迁移。
MI2RAGE利用链式跨模态生成增强数据多样性，并引入互信息指导的样本选择，提升合成数据质量。
实验表明，MI2RAGE在合成数据上训练的模型，性能超越了在真实数据上训练的现有最优模型。

📝 摘要（中文）

多模态关系抽取任务备受关注，但进展受限于训练数据稀缺。本文考虑一种新颖的问题设置：训练时仅有单模态数据（文本或图像）。目标是从合成数据训练多模态分类器，使其在真实多模态测试数据上表现良好。然而，使用合成数据训练面临数据多样性不足和标签信息丢失两个障碍。为缓解这些问题，我们提出互信息感知的多模态迭代关系数据生成方法（MI2RAGE），该方法应用链式跨模态生成（CCG）来促进生成数据的多样性，并利用教师网络选择与真实标签具有高互信息的有价值训练样本。与直接在合成数据上训练相比，我们的方法在使用合成文本时F1提升了24.06%，使用合成图像时F1提升了26.42%。值得注意的是，我们最好的完全基于合成图像训练的模型，其F1值比之前在真实多模态数据上训练的最先进模型高出3.76%。我们的代码将在接收后公开。

🔬 方法详解

问题定义：多模态关系抽取任务旨在识别图像和文本描述中实体之间的关系。现有方法依赖于大量的真实多模态数据，但此类数据难以获取。因此，如何利用易于获取的单模态数据（文本或图像）生成有效的多模态数据，并训练出高性能的多模态关系抽取模型，是一个亟待解决的问题。直接在合成数据上训练会面临数据多样性不足和标签信息丢失的问题，导致模型泛化能力差。

核心思路：本文的核心思路是利用链式跨模态生成（CCG）来增加合成数据的多样性，并使用互信息来筛选高质量的合成数据。CCG通过多次跨模态转换，例如从文本生成图像，再从生成的图像生成文本，从而扩大数据的覆盖范围。互信息则用于衡量合成数据与真实标签之间的相关性，选择与真实标签具有高互信息的样本进行训练，从而减少标签信息丢失的影响。

技术框架：MI2RAGE方法包含以下几个主要阶段：1) 单模态数据准备：收集单模态文本和图像数据。2) 链式跨模态生成（CCG）：使用生成模型（如GAN或VAE）进行多次跨模态转换，生成多样化的合成多模态数据。3) 教师网络训练：使用少量真实多模态数据训练一个教师网络，用于评估合成数据的质量。4) 互信息计算与样本选择：计算合成数据与真实标签之间的互信息，选择互信息高的样本。5) 学生网络训练：使用选择后的合成数据训练学生网络，即最终的多模态关系抽取模型。

关键创新：MI2RAGE的关键创新在于：1) 提出了互信息感知的样本选择策略，能够有效筛选高质量的合成数据，减少标签信息丢失的影响。2) 应用链式跨模态生成（CCG）来增加合成数据的多样性，从而提高模型的泛化能力。3) 提出了一种完全基于合成数据训练多模态关系抽取模型的新范式，摆脱了对大量真实多模态数据的依赖。

关键设计：在链式跨模态生成中，可以使用不同的生成模型，例如GAN、VAE或扩散模型。互信息的计算可以使用不同的估计方法，例如基于核密度估计或神经网络的方法。教师网络的结构可以根据具体任务进行选择，例如可以使用预训练的Transformer模型。学生网络的结构也需要根据具体任务进行设计，常用的结构包括多模态融合网络和图神经网络。

📊 实验亮点

实验结果表明，MI2RAGE方法在多模态关系抽取任务上取得了显著的性能提升。使用合成文本数据训练的模型，F1值提升了24.06%；使用合成图像数据训练的模型，F1值提升了26.42%。更重要的是，完全基于合成图像训练的模型，其F1值比之前在真实多模态数据上训练的最先进模型高出3.76%。

🎯 应用场景

该研究成果可应用于多种场景，例如：零样本或少样本多模态学习、数据增强、跨模态信息检索、以及在缺乏标注数据的领域进行多模态关系抽取。该方法降低了对真实多模态数据的依赖，使得在资源受限的环境下也能训练出高性能的多模态模型，具有重要的实际应用价值。

📄 摘要（原文）

The task of multimodal relation extraction has attracted significant research attention, but progress is constrained by the scarcity of available training data. One natural thought is to extend existing datasets with cross-modal generative models. In this paper, we consider a novel problem setting, where only unimodal data, either text or image, are available during training. We aim to train a multimodal classifier from synthetic data that perform well on real multimodal test data. However, training with synthetic data suffers from two obstacles: lack of data diversity and label information loss. To alleviate the issues, we propose Mutual Information-aware Multimodal Iterated Relational dAta GEneration (MI2RAGE), which applies Chained Cross-modal Generation (CCG) to promote diversity in the generated data and exploits a teacher network to select valuable training samples with high mutual information with the ground-truth labels. Comparing our method to direct training on synthetic data, we observed a significant improvement of 24.06% F1 with synthetic text and 26.42% F1 with synthetic images. Notably, our best model trained on completely synthetic images outperforms prior state-of-the-art models trained on real multimodal data by a margin of 3.76% in F1. Our codebase will be made available upon acceptance.

Training on Synthetic Data Beats Real Data in Multimodal Relation Extraction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册