Unicorn: Text-Only Data Synthesis for Vision Language Model Training

作者: Xiaomin Yu, Pengxiang Ding, Wenjie Zhang, Siteng Huang, Songyang Gao, Chengwei Qin, Kejian Wu, Zhaoxin Fan, Ziyue Qiao, Donglin Wang

分类: cs.AI, cs.CV, cs.MM

发布日期: 2025-03-28

🔗 代码/项目: GITHUB

💡 一句话要点

Unicorn：提出一种纯文本数据合成方法，用于视觉语言模型训练。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 数据合成 大型语言模型 多模态学习 指令调优

📋 核心要点

现有视觉语言模型训练依赖大量图像-文本数据，获取成本高昂，限制了模型发展。
Unicorn框架利用大型语言模型，从文本数据合成高质量多模态数据，降低数据获取成本。
该方法生成Unicorn-1.2M和Unicorn-471K-Instruction数据集，用于预训练和指令调优，无需真实图像。

📝 摘要（中文）

训练视觉语言模型(VLMs)通常需要大规模、高质量的图像-文本对，但收集或合成此类数据的成本很高。相比之下，文本数据丰富且廉价，这引出了一个问题：能否仅从文本中合成高质量的多模态训练数据？为了解决这个问题，我们提出了一个跨集成三阶段多模态数据合成框架，该框架生成两个数据集：Unicorn-1.2M和Unicorn-471K-Instruction。在第一阶段：多样化标题数据合成中，我们通过使用大型语言模型(LLMs)扩展稀疏标题种子来构建1.2M个语义多样化的高质量标题。在第二阶段：指令调优数据生成中，我们进一步将471K个标题处理成多轮指令调优任务，以支持复杂的推理。最后，在第三阶段：模态表示转移中，这些文本标题表示被转换为视觉表示，从而产生多样化的合成图像表示。这个三阶段过程使我们能够构建用于预训练的Unicorn-1.2M和用于指令调优的Unicorn-471K-Instruction，而无需依赖真实图像。通过消除对真实图像的依赖，同时保持数据质量和多样性，我们的框架为VLMs训练提供了一种经济高效且可扩展的解决方案。

🔬 方法详解

问题定义：视觉语言模型（VLM）的训练严重依赖大规模、高质量的图像-文本对。然而，收集或标注这些数据成本高昂，成为VLM发展的瓶颈。现有的数据合成方法通常也需要一定量的真实图像作为基础，限制了其扩展性。因此，如何以低成本的方式获取高质量的多模态训练数据是一个关键问题。

核心思路：Unicorn的核心思路是完全摆脱对真实图像的依赖，仅利用丰富的文本数据来合成多模态训练数据。通过大型语言模型（LLM）强大的文本生成和理解能力，将文本描述转化为视觉表示，从而构建用于VLM训练的数据集。这种方法旨在降低数据获取成本，并提高数据的多样性和可控性。

技术框架：Unicorn框架包含三个主要阶段： 1. 多样化标题数据合成：利用LLM扩展少量种子标题，生成1.2M个语义多样且高质量的文本描述。 2. 指令调优数据生成：将471K个标题转化为多轮指令调优任务，增强模型的推理能力。 3. 模态表示转移：将文本标题的表示转化为视觉表示，生成合成图像。最终，生成Unicorn-1.2M（预训练）和Unicorn-471K-Instruction（指令调优）两个数据集。

关键创新：Unicorn最关键的创新点在于完全基于文本数据合成多模态数据，无需任何真实图像。这与以往依赖真实图像或图像特征的数据合成方法有本质区别。通过LLM强大的生成能力，可以创造出多样且高质量的合成数据，从而降低了VLM训练的数据成本和门槛。

关键设计： * 种子标题扩展：利用LLM进行上下文学习和条件生成，控制生成标题的多样性和质量。 * 指令调优任务构建：设计多轮对话任务，引导模型进行推理和决策。 * 模态表示转移：使用文本编码器（如CLIP的文本编码器）提取文本特征，然后将这些特征作为合成图像的表示。具体如何将文本特征转化为视觉特征的细节未知。

🖼️ 关键图片

📊 实验亮点

论文提出了Unicorn-1.2M和Unicorn-471K-Instruction两个数据集，用于视觉语言模型的预训练和指令调优。通过实验验证，使用Unicorn数据集训练的VLM在多个下游任务上取得了有竞争力的结果，证明了该方法在降低数据成本的同时，保持了数据质量和有效性。具体的性能数据和对比基线未知。

🎯 应用场景

Unicorn框架生成的合成数据可用于预训练和指令调优视觉语言模型，降低模型训练成本，加速模型开发。该方法适用于资源受限的场景，例如低成本机器人、智能助手等，也可用于生成特定领域的数据，提升模型在该领域的性能。未来，该方法有望应用于更广泛的多模态学习任务。

📄 摘要（原文）

Training vision-language models (VLMs) typically requires large-scale, high-quality image-text pairs, but collecting or synthesizing such data is costly. In contrast, text data is abundant and inexpensive, prompting the question: can high-quality multimodal training data be synthesized purely from text? To tackle this, we propose a cross-integrated three-stage multimodal data synthesis framework, which generates two datasets: Unicorn-1.2M and Unicorn-471K-Instruction. In Stage 1: Diverse Caption Data Synthesis, we construct 1.2M semantically diverse high-quality captions by expanding sparse caption seeds using large language models (LLMs). In Stage 2: Instruction-Tuning Data Generation, we further process 471K captions into multi-turn instruction-tuning tasks to support complex reasoning. Finally, in Stage 3: Modality Representation Transfer, these textual captions representations are transformed into visual representations, resulting in diverse synthetic image representations. This three-stage process enables us to construct Unicorn-1.2M for pretraining and Unicorn-471K-Instruction for instruction-tuning, without relying on real images. By eliminating the dependency on real images while maintaining data quality and diversity, our framework offers a cost-effective and scalable solution for VLMs training. Code is available at https://github.com/Yu-xm/Unicorn.git.

Unicorn: Text-Only Data Synthesis for Vision Language Model Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理