InstaDA: Augmenting Instance Segmentation Data with Dual-Agent System
作者: Xianbao Hou, Yonghao He, Zeyd Boukhers, John See, Hu Su, Wei Sui, Cong Yang
分类: cs.CV
发布日期: 2025-09-03 (更新: 2025-11-25)
💡 一句话要点
InstaDA:利用双智能体系统增强实例分割数据,无需训练。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 实例分割 数据增强 双智能体系统 大型语言模型 扩散模型 Prompt Rethink 类别不平衡
📋 核心要点
- 实例分割数据标注成本高昂,且数据集存在严重的类别不平衡问题,限制了模型性能。
- InstaDA提出双智能体系统,利用文本智能体生成多样化图像,图像智能体生成新的实例,从而增强数据集。
- 实验表明,InstaDA在LVIS 1.0验证集上显著提升了实例分割性能,优于现有领先模型DiverGen。
📝 摘要(中文)
高质量实例分割数据的获取面临标注工作量大和数据集类别不平衡的挑战。本文提出InstaDA,一种新颖的、无需训练的双智能体系统,用于增强实例分割数据集。该系统包含一个文本智能体(T-Agent),通过大型语言模型(LLM)和扩散模型的协作来提高数据多样性,并引入Prompt Rethink机制迭代优化提示词。同时,一个图像智能体(I-Agent)通过生成以训练图像为条件的新实例来丰富数据分布。两个智能体独立运行,构成自动化工作流程,提升可用性。在LVIS 1.0验证集上的实验表明,InstaDA相比基线模型,在box AP上提升+4.0,mask AP上提升+3.3,且优于DiverGen模型,在常见类别上的box AP提升+0.7,mask AP提升+0.2,在频繁类别上的mask AP提升+0.5。
🔬 方法详解
问题定义:实例分割任务需要大量高质量的标注数据,但人工标注成本高,且现有数据集存在类别不平衡问题。现有方法如Copy-Paste和扩散模型在生成数据时,缺乏LLM和扩散模型的深度协作,且对现有训练数据的信息利用不足。
核心思路:InstaDA的核心思路是利用双智能体系统,分别从文本和图像两个角度增强数据集。文本智能体(T-Agent)通过LLM和扩散模型的协作生成多样化的图像,图像智能体(I-Agent)通过在现有图像的基础上生成新的实例来丰富数据分布。这种双管齐下的方法旨在提高数据的多样性和平衡性。
技术框架:InstaDA包含两个主要模块:文本智能体(T-Agent)和图像智能体(I-Agent)。T-Agent首先利用LLM生成初始提示词,然后使用扩散模型生成图像,并通过Prompt Rethink机制迭代优化提示词,提升生成图像的质量和多样性。I-Agent则以训练图像为条件,生成新的实例,并将其添加到训练集中。两个智能体独立运行,构成一个自动化的数据增强流程。
关键创新:InstaDA的关键创新在于Prompt Rethink机制和双智能体协同工作。Prompt Rethink机制通过迭代优化提示词,提高了LLM和扩散模型的协作效率,从而生成更高质量的图像。双智能体协同工作则从文本和图像两个角度增强数据集,更全面地解决了数据多样性和类别不平衡问题。
关键设计:Prompt Rethink机制的具体实现细节(例如,LLM的选择、扩散模型的参数设置、迭代次数等)在论文中可能有所描述,但摘要中未明确提及。I-Agent生成新实例的具体方法(例如,使用GAN或其他生成模型)也需要在论文中查找。损失函数和网络结构等细节也依赖于I-Agent的具体实现。
🖼️ 关键图片
📊 实验亮点
InstaDA在LVIS 1.0验证集上取得了显著的性能提升,box AP提升+4.0,mask AP提升+3.3,超过了基线模型。同时,InstaDA也优于领先模型DiverGen,在常见类别上的box AP提升+0.7,mask AP提升+0.2,在频繁类别上的mask AP提升+0.5。这些结果表明InstaDA在增强实例分割数据方面的有效性。
🎯 应用场景
InstaDA可广泛应用于实例分割任务中,尤其是在数据标注成本高昂或数据集存在类别不平衡的情况下。该方法能够有效提升模型性能,降低对大量人工标注数据的依赖,从而加速相关领域的研究和应用,例如自动驾驶、医学图像分析、遥感图像处理等。
📄 摘要(原文)
Acquiring high-quality instance segmentation data is challenging due to the labor-intensive nature of the annotation process and significant class imbalances within datasets. Recent studies have utilized the integration of Copy-Paste and diffusion models to create more diverse datasets. However, these studies often lack deep collaboration between large language models (LLMs) and diffusion models, and underutilize the rich information within the existing training data. To address these limitations, we propose InstaDA, a novel, training-free Dual-Agent system designed to augment instance segmentation datasets. First, we introduce a Text-Agent (T-Agent) that enhances data diversity through collaboration between LLMs and diffusion models. This agent features a novel Prompt Rethink mechanism, which iteratively refines prompts based on the generated images. This process not only fosters collaboration but also increases image utilization and optimizes the prompts themselves. Additionally, we present an Image-Agent (I-Agent) aimed at enriching the overall data distribution. This agent augments the training set by generating new instances conditioned on the training images. To ensure practicality and efficiency, both agents operate as independent and automated workflows, enhancing usability. Experiments conducted on the LVIS 1.0 validation set indicate that InstaDA achieves significant improvements, with an increase of +4.0 in box average precision (AP) and +3.3 in mask AP compared to the baseline. Furthermore, it outperforms the leading model, DiverGen, by +0.3 in box AP and +0.1 in mask AP, with a notable +0.7 gain in box AP on common categories and mask AP gains of +0.2 on common categories and +0.5 on frequent categories.