Asymmetric Idiosyncrasies in Multimodal Models

📄 arXiv: 2602.22734v1 📥 PDF

作者: Muzi Tao, Chufan Shi, Huijuan Wang, Shengbang Tong, Xuezhe Ma

分类: cs.CV

发布日期: 2026-02-26

备注: Project page: https://muzi-tao.github.io/asymmetric-idiosyncrasies/


💡 一句话要点

研究多模态模型中的不对称特性,揭示文本到图像生成中风格信息损失问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 文本到图像生成 风格特征 图像描述 分类器 风格迁移 模型评估

📋 核心要点

  1. 现有的文本到图像模型在风格保持方面存在不足,生成的图像未能完全捕捉到文本描述中的细微差异和风格特征。
  2. 通过训练分类器预测图像描述的来源模型,从而量化图像描述模型的风格特征以及文本到图像模型的提示遵循能力。
  3. 实验结果表明,图像描述模型具有明显的风格特征,但在文本到图像生成过程中,这些特征会显著丢失。

📝 摘要(中文)

本文研究了图像描述模型中的特殊风格,以及这些风格对文本到图像模型的影响。我们设计了一个系统的分析方法:给定生成的图像描述或对应的图像,训练神经网络来预测生成该描述的图像描述模型。结果表明,文本分类可以达到非常高的准确率(99.70%),表明图像描述模型嵌入了独特的风格特征。相反,这些特征在生成的图像中很大程度上消失了,即使对于最先进的Flux模型,分类准确率也最多降至50%。为了更好地理解这种跨模态差异,我们进一步分析数据,发现生成的图像未能保留图像描述中的关键变化,例如细节层次的差异、对颜色和纹理的强调,以及场景中物体的分布。总的来说,我们基于分类的框架为量化图像描述模型的风格特征和文本到图像系统的提示遵循能力提供了一种新的方法。

🔬 方法详解

问题定义:现有的文本到图像模型,虽然在生成图像的逼真度和语义相关性方面取得了显著进展,但在风格保持方面仍存在不足。不同的图像描述模型会产生具有不同风格特征的描述,而文本到图像模型在将这些描述转化为图像时,往往会丢失这些风格信息,导致生成的图像缺乏多样性和个性化。

核心思路:本文的核心思路是利用分类任务来量化图像描述模型的风格特征,以及文本到图像模型对这些特征的保留程度。具体来说,通过训练分类器来预测给定图像描述或图像的来源模型,从而判断图像描述模型是否具有独特的风格特征,以及这些特征是否在生成的图像中得到保留。

技术框架:整体框架包含两个主要部分:首先,使用不同的图像描述模型生成图像描述;然后,使用这些图像描述和对应的图像训练分类器,以预测其来源模型。对于图像描述,使用文本分类器;对于图像,使用图像分类器。通过比较两个分类器的性能,可以评估文本到图像模型在风格保持方面的能力。

关键创新:本文的关键创新在于提出了一种基于分类的框架,用于量化图像描述模型的风格特征以及文本到图像模型的提示遵循能力。这种方法不需要人工标注,可以自动地评估模型的风格保持能力,为研究文本到图像生成中的风格控制问题提供了一种新的思路。

关键设计:在实验中,使用了多个图像描述模型和文本到图像模型。对于分类器,使用了标准的神经网络结构,并采用交叉熵损失函数进行训练。关键的参数设置包括学习率、batch size和训练轮数等。此外,还对数据进行了详细的分析,以了解图像描述和图像之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,文本分类器可以以高达99.70%的准确率预测图像描述的来源模型,表明图像描述模型具有明显的风格特征。然而,图像分类器在预测生成图像的来源模型时,准确率最多降至50%,表明文本到图像模型在生成图像时会丢失大量的风格信息。即使是最先进的Flux模型也无法完全保留这些风格特征。

🎯 应用场景

该研究成果可应用于提升文本到图像生成模型的风格控制能力,例如,允许用户指定图像描述的风格,从而生成具有特定风格的图像。此外,该方法还可以用于评估不同文本到图像模型的风格保持能力,为模型选择和优化提供参考。

📄 摘要(原文)

In this work, we study idiosyncrasies in the caption models and their downstream impact on text-to-image models. We design a systematic analysis: given either a generated caption or the corresponding image, we train neural networks to predict the originating caption model. Our results show that text classification yields very high accuracy (99.70\%), indicating that captioning models embed distinctive stylistic signatures. In contrast, these signatures largely disappear in the generated images, with classification accuracy dropping to at most 50\% even for the state-of-the-art Flux model. To better understand this cross-modal discrepancy, we further analyze the data and find that the generated images fail to preserve key variations present in captions, such as differences in the level of detail, emphasis on color and texture, and the distribution of objects within a scene. Overall, our classification-based framework provides a novel methodology for quantifying both the stylistic idiosyncrasies of caption models and the prompt-following ability of text-to-image systems.