SPARTA: Evaluating Reasoning Segmentation Robustness through Black-Box Adversarial Paraphrasing in Text Autoencoder Latent Space
作者: Viktoriia Zinkovich, Anton Antonov, Andrei Spiridonov, Denis Shepelev, Andrey Moskalenko, Daria Pugacheva, Elena Tutubalina, Andrey Kuznetsov, Vlad Shakhuro
分类: cs.CL, cs.CV
发布日期: 2025-10-28
💡 一句话要点
SPARTA:通过文本自编码器隐空间中的黑盒对抗释义评估推理分割的鲁棒性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 对抗攻击 文本释义 推理分割 鲁棒性评估
📋 核心要点
- 现有的多模态大语言模型推理分割研究主要关注图像扰动,忽略了文本查询中语义等价的释义带来的鲁棒性问题。
- SPARTA提出了一种黑盒对抗释义方法,通过在文本自编码器的低维语义空间中优化,生成能够降低分割性能的释义。
- 实验表明,SPARTA在ReasonSeg和LLMSeg-40k数据集上显著优于现有方法,并揭示了现有模型在对抗释义下的脆弱性。
📝 摘要(中文)
多模态大型语言模型(MLLM)在视觉-语言任务中表现出令人印象深刻的能力,例如推理分割,即模型基于文本查询生成分割掩码。先前的工作主要集中在扰动图像输入,而语义等价的文本释义——在用户以不同方式表达相同意图的实际应用中至关重要——仍未被充分探索。为了弥补这一差距,我们引入了一种新的对抗释义任务:生成语法正确的释义,在保持原始查询含义的同时降低分割性能。为了评估对抗释义的质量,我们开发了一个全面的自动评估协议,并通过人工研究进行了验证。此外,我们引入了SPARTA——一种黑盒、句子级优化方法,它在文本自编码器的低维语义潜在空间中运行,并由强化学习指导。SPARTA取得了显著更高的成功率,在ReasonSeg和LLMSeg-40k数据集上,性能优于先前的方法高达2倍。我们使用SPARTA和有竞争力的基线来评估高级推理分割模型的鲁棒性。我们发现,即使在严格的语义和语法约束下,它们仍然容易受到对抗释义的影响。所有代码和数据将在接收后公开发布。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型在推理分割任务中,对于语义等价的文本查询释义的鲁棒性问题。现有方法主要关注图像输入的扰动,忽略了用户在实际应用中可能使用不同的文本表达方式来描述相同意图的情况,导致模型在面对这些释义时性能下降。
核心思路:论文的核心思路是通过生成对抗性的文本释义来评估和提高模型的鲁棒性。具体来说,通过在文本自编码器的低维语义潜在空间中进行优化,生成既保持原始查询语义,又能显著降低分割性能的释义。这种方法能够有效地模拟用户在实际应用中可能使用的各种表达方式,从而更全面地评估模型的鲁棒性。
技术框架:SPARTA的技术框架主要包括以下几个模块:1) 文本自编码器:用于将文本查询编码到低维语义潜在空间,并从该空间解码回文本。2) 强化学习代理:负责在潜在空间中搜索能够生成对抗性释义的向量。3) 分割模型:作为黑盒进行评估,其分割性能作为强化学习的奖励信号。4) 自动评估协议:用于评估生成的释义的语义相似性和语法正确性。整个流程是,首先将原始查询编码到潜在空间,然后强化学习代理在潜在空间中进行探索,生成新的向量,解码成释义,输入到分割模型中,根据分割性能和评估协议计算奖励,用于更新强化学习代理。
关键创新:SPARTA的关键创新在于:1) 提出了一种新的对抗释义任务,用于评估推理分割模型的鲁棒性。2) 提出了一种黑盒优化方法,能够在文本自编码器的低维语义潜在空间中高效地生成对抗性释义。3) 开发了一个全面的自动评估协议,用于评估生成的释义的质量。与现有方法相比,SPARTA不需要访问分割模型的内部参数,因此更具有通用性。
关键设计:SPARTA的关键设计包括:1) 使用预训练的文本自编码器,例如BERT或GPT-2,以获得高质量的语义潜在空间。2) 使用强化学习算法,例如PPO或REINFORCE,来优化潜在空间中的向量。3) 设计合适的奖励函数,综合考虑分割性能、语义相似性和语法正确性。4) 使用多种自动评估指标,例如BLEU、ROUGE和BERTScore,来评估释义的质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SPARTA在ReasonSeg和LLMSeg-40k数据集上显著优于现有方法,成功率提高了高达2倍。即使在严格的语义和语法约束下,SPARTA仍然能够生成有效的对抗性释义,揭示了现有推理分割模型在面对文本释义攻击时的脆弱性。这些结果表明,SPARTA是一种有效的评估和提高模型鲁棒性的工具。
🎯 应用场景
该研究成果可应用于提升多模态大语言模型在视觉-语言任务中的鲁棒性和可靠性,尤其是在需要处理用户多样化文本输入的场景中,例如智能客服、图像搜索、机器人导航等。通过对抗训练,可以提高模型在面对不同表达方式的查询时的泛化能力,从而提升用户体验和系统性能。此外,该方法还可以用于评估和比较不同模型的鲁棒性,为模型选择和优化提供依据。
📄 摘要(原文)
Multimodal large language models (MLLMs) have shown impressive capabilities in vision-language tasks such as reasoning segmentation, where models generate segmentation masks based on textual queries. While prior work has primarily focused on perturbing image inputs, semantically equivalent textual paraphrases-crucial in real-world applications where users express the same intent in varied ways-remain underexplored. To address this gap, we introduce a novel adversarial paraphrasing task: generating grammatically correct paraphrases that preserve the original query meaning while degrading segmentation performance. To evaluate the quality of adversarial paraphrases, we develop a comprehensive automatic evaluation protocol validated with human studies. Furthermore, we introduce SPARTA-a black-box, sentence-level optimization method that operates in the low-dimensional semantic latent space of a text autoencoder, guided by reinforcement learning. SPARTA achieves significantly higher success rates, outperforming prior methods by up to 2x on both the ReasonSeg and LLMSeg-40k datasets. We use SPARTA and competitive baselines to assess the robustness of advanced reasoning segmentation models. We reveal that they remain vulnerable to adversarial paraphrasing-even under strict semantic and grammatical constraints. All code and data will be released publicly upon acceptance.