FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs

作者: Jing Hao, Yuxiang Zhao, Song Chen, Yanpeng Sun, Qiang Chen, Gang Zhang, Kun Yao, Errui Ding, Jingdong Wang

分类: cs.CV

发布日期: 2024-09-20

备注: 7 pages, 5 figures, 2 tables

💡 一句话要点

FullAnno：用于增强MLLM图像理解能力的数据引擎

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 图像标注 数据引擎 提示工程 视觉语言理解

📋 核心要点

现有MLLM依赖GPT-4V生成高质量数据，但成本高昂且提示简单，限制了数据规模和质量。
FullAnno通过级联专家模型和丰富提示，驱动LLM生成大规模、高质量、细粒度的图像注释。
使用FullAnno重新标注COCO和VG数据集，显著提升了LLaVA-v1.5在多个benchmark上的性能。

📝 摘要（中文）

多模态大型语言模型(MLLMs)在各种视觉-语言任务中展现了强大的推理和泛化能力。然而，它们在监督微调(SFT)阶段严重依赖高质量的数据。现有的方法旨在通过GPT-4V来管理高质量的数据，但由于GPT-4V的商业性质以及用于指导模型的提示的简单性，这些方法不具备可扩展性。为此，我们设计了FullAnno系统，这是一个数据引擎，可以生成大规模、高质量和细粒度的图像注释，包括对象的类别和位置、区域描述、文本信息以及图像密集字幕。该引擎的特点是其级联注释过程，该过程涉及多个专家模型，并采用丰富的提示来指导LLMs生成密集的图像字幕。我们使用FullAnno系统重新注释了COCO和Visual Genome数据集，使对象注释的数量增加了两倍，并将原始图像字幕的长度增加了15倍。实验表明，重新生成的注释可以显著增强LLaVA-v1.5在多个基准测试上的能力。重新注释的数据可在以下网址获得：https://arcana-project-page.github.io

🔬 方法详解

问题定义：现有MLLM的监督微调阶段依赖于高质量的图像标注数据。然而，利用GPT-4V等商业模型生成标注数据成本高昂，且现有方法使用的提示较为简单，导致生成的数据质量和规模受限。因此，如何高效、低成本地生成大规模、高质量、细粒度的图像标注数据是本文要解决的核心问题。

核心思路：本文的核心思路是设计一个数据引擎FullAnno，通过级联多个专家模型，并采用丰富的提示工程，来指导LLM生成高质量的图像标注。这种方法旨在降低对昂贵商业模型的依赖，并提高数据生成的效率和质量。

技术框架：FullAnno系统采用级联注释流程，主要包含以下几个阶段：1) 对象检测：利用预训练的对象检测模型识别图像中的对象，并标注其类别和位置。2) 区域描述：利用LLM，结合对象检测结果和图像信息，生成图像区域的详细描述。3) 文本信息提取：从图像中提取文本信息，例如场景文本。4) 图像密集字幕生成：利用LLM，结合对象检测结果、区域描述和文本信息，生成图像的密集字幕。整个流程通过精心设计的提示工程来指导LLM的生成过程。

关键创新：FullAnno的关键创新在于其级联注释流程和丰富的提示工程。通过级联多个专家模型，可以充分利用不同模型的优势，提高标注的准确性和效率。通过精心设计的提示，可以引导LLM生成更详细、更准确的图像描述。与现有方法相比，FullAnno能够以更低的成本生成更高质量的图像标注数据。

关键设计：FullAnno的关键设计包括：1) 专家模型的选择：选择在特定任务上表现优异的预训练模型，例如对象检测模型。2) 提示工程：设计详细的提示，指导LLM生成高质量的图像描述，例如，提示可以包含对象的类别、位置、属性等信息。3) 数据清洗：对生成的数据进行清洗，去除噪声和错误标注。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用FullAnno重新标注的COCO和Visual Genome数据集，能够显著提升LLaVA-v1.5在多个benchmark上的性能。例如，对象注释的数量增加了三倍，原始图像字幕的长度增加了15倍。这些改进使得LLaVA-v1.5在视觉问答等任务上的准确率得到了显著提升，证明了FullAnno的有效性。

🎯 应用场景

FullAnno生成的增强型图像标注数据可广泛应用于多模态大型语言模型的训练和评估，提升模型在视觉问答、图像描述、目标检测等任务上的性能。该技术也可应用于自动驾驶、智能安防、机器人等领域，提高机器对环境的感知和理解能力，具有重要的实际应用价值和广阔的发展前景。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have shown promise in a broad range of vision-language tasks with their strong reasoning and generalization capabilities. However, they heavily depend on high-quality data in the Supervised Fine-Tuning (SFT) phase. The existing approaches aim to curate high-quality data via GPT-4V, but they are not scalable due to the commercial nature of GPT-4V and the simplicity of the prompts used to instruct the model. To this end, we devised the FullAnno system, which is a data engine that can generate large-scale, high-quality, and fine-grained image annotations consisting of the category and position of objects, region descriptions, text information, as well as image dense captions. This engine is characterized by its cascade annotation process, which involves multiple expert models and employs rich prompts to instruct LLMs in generating dense image captions. We re-annotated the COCO and Visual Genome datasets using our FullAnno system, tripling the number of object annotations and increasing the length of the original image captions by a factor of 15. Experiments show that the regenerated annotation can significantly enhance the capabilities of LLaVA-v1.5 on several benchmarks. The re-annotated data are available at: https://arcana-project-page.github.io

FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理