TranX-Adapter: Bridging Artifacts and Semantics within MLLMs for Robust AI-generated Image Detection

📄 arXiv: 2602.21716v1 📥 PDF

作者: Wenbin Wang, Yuge Huang, Jianqing Xu, Yue Yu, Jiangtao Yan, Shouhong Ding, Pan Zhou, Yong Luo

分类: cs.CV

发布日期: 2026-02-25


💡 一句话要点

提出TranX-Adapter,增强MLLM在AI生成图像检测中的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成图像检测 多模态大语言模型 特征融合 最优传输 交叉注意力 注意力稀释 伪影特征

📋 核心要点

  1. 现有方法在AI生成图像检测中,伪影特征相似度高导致注意力稀释,阻碍语义和伪影特征融合。
  2. TranX-Adapter通过任务感知的最优传输融合和X-Fusion,有效传递伪影和语义信息,实现特征互补。
  3. 实验表明,TranX-Adapter在多个MLLM模型上,AIGI检测准确率提升高达6%。

📝 摘要(中文)

人工智能生成图像(AIGI)技术的快速发展使得图像合成高度逼真,威胁着公共信息的完整性和安全性。最近的研究表明,将纹理级别的伪影特征与语义特征结合到多模态大型语言模型(MLLM)中可以增强其AIGI检测能力。然而,我们的初步分析表明,伪影特征表现出高度的特征内相似性,导致softmax操作后几乎均匀的注意力图。这种现象导致注意力稀释,从而阻碍了语义特征和伪影特征之间的有效融合。为了克服这个限制,我们提出了一种轻量级的融合适配器TranX-Adapter,它集成了任务感知的最优传输融合,该融合利用伪影和语义预测概率之间的Jensen-Shannon散度作为成本矩阵,将伪影信息传递到语义特征中,以及X-Fusion,它采用交叉注意力将语义信息传递到伪影特征中。在几个先进的MLLM的标准AIGI检测基准上的实验表明,我们的TranX-Adapter带来了持续且显著的改进(高达+6%的准确率)。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在AI生成图像(AIGI)检测任务中,由于伪影特征的高度相似性导致的注意力稀释问题。现有方法难以有效融合语义特征和伪影特征,限制了检测性能。

核心思路:论文的核心思路是通过设计一个轻量级的融合适配器TranX-Adapter,显式地将伪影信息传递到语义特征,并将语义信息传递到伪影特征,从而实现二者之间的有效融合,克服注意力稀释问题。

技术框架:TranX-Adapter包含两个主要模块:Task-aware Optimal-Transport Fusion(任务感知的最优传输融合)和X-Fusion。Task-aware Optimal-Transport Fusion利用Jensen-Shannon散度计算伪影和语义预测概率之间的差异,作为最优传输的成本矩阵,将伪影信息融入语义特征。X-Fusion则使用交叉注意力机制,将语义信息融入伪影特征。这两个模块相互补充,共同促进特征融合。

关键创新:论文的关键创新在于提出了Task-aware Optimal-Transport Fusion,它利用最优传输理论,以任务预测概率的差异作为指导,自适应地将伪影信息传递到语义特征中。这种方法能够更有效地利用伪影特征,避免了传统方法中由于注意力稀释而导致的信息损失。同时,X-Fusion模块进一步增强了语义信息对伪影特征的补充。

关键设计:Task-aware Optimal-Transport Fusion模块使用Jensen-Shannon散度作为成本矩阵,用于计算伪影和语义预测概率之间的距离。最优传输过程通过Sinkhorn算法实现,以提高计算效率。X-Fusion模块采用标准的交叉注意力机制,其中语义特征作为query,伪影特征作为key和value。TranX-Adapter作为一个轻量级模块,可以方便地集成到现有的MLLM架构中,而无需进行大规模的参数调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TranX-Adapter在多个先进的MLLM模型上,AIGI检测准确率获得了显著提升,最高提升幅度达到6%。这证明了该方法在解决注意力稀释问题方面的有效性,以及在提升AIGI检测鲁棒性方面的潜力。实验结果具有统计显著性,表明该方法具有实际应用价值。

🎯 应用场景

该研究成果可应用于图像内容安全、虚假信息检测、版权保护等领域。通过提高AI生成图像的检测精度,有助于维护网络信息安全,防止恶意内容传播,保障社会公共利益。未来可进一步扩展到视频、音频等其他模态的AI生成内容检测。

📄 摘要(原文)

Rapid advances in AI-generated image (AIGI) technology enable highly realistic synthesis, threatening public information integrity and security. Recent studies have demonstrated that incorporating texture-level artifact features alongside semantic features into multimodal large language models (MLLMs) can enhance their AIGI detection capability. However, our preliminary analyses reveal that artifact features exhibit high intra-feature similarity, leading to an almost uniform attention map after the softmax operation. This phenomenon causes attention dilution, thereby hindering effective fusion between semantic and artifact features. To overcome this limitation, we propose a lightweight fusion adapter, TranX-Adapter, which integrates a Task-aware Optimal-Transport Fusion that leverages the Jensen-Shannon divergence between artifact and semantic prediction probabilities as a cost matrix to transfer artifact information into semantic features, and an X-Fusion that employs cross-attention to transfer semantic information into artifact features. Experiments on standard AIGI detection benchmarks upon several advanced MLLMs, show that our TranX-Adapter brings consistent and significant improvements (up to +6% accuracy).