TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs

📄 arXiv: 2507.21584 📥 PDF

作者: Kejia Zhang, Keda Tao, Zhiming Luo, Chang Liu, Jiasheng Tang, Huan Wang

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

TARS:一种MinMax Token自适应偏好策略,用于减少多模态大语言模型中的幻觉

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 幻觉减少 直接偏好优化 对抗训练 MinMax优化 Token自适应 频谱对齐 视觉Grounding

📋 核心要点

  1. MLLM容易产生幻觉,现有DPO方法易过度拟合表面语言线索,忽略视觉 grounding。
  2. TARS通过min-max优化,对抗性扰动视觉无关token,迫使模型关注视觉信号,减少幻觉。
  3. 实验表明,TARS在少量样本下显著降低幻觉率,优于标准DPO和数据增强方法,逼近GPT-4o。

📝 摘要(中文)

多模态大语言模型(MLLMs)容易产生幻觉,即生成看似合理但视觉上无根据的输出,部分原因是直接偏好优化(DPO)过度拟合了静态偏好监督下的表面语言线索。我们提出了TARS,一种token自适应偏好策略,它将DPO重构为一个有原则的min-max优化问题。内部最大化选择性地扰动视觉无关的token,以诱导最坏情况下的分布偏移,而外部最小化则强制与因果视觉信号对齐,而不是表面模式。一种新的频谱对齐损失通过快速傅里叶变换(FFT)进一步正则化频域中的隐藏表示,在没有严格token级别对应关系的情况下保留全局语义结构。我们在多个幻觉基准上评估了TARS。仅使用4.8k偏好样本,无需专家反馈,TARS将幻觉率从26.4%降低到13.2%,认知得分从2.5降低到0.4,大大优于标准DPO。值得注意的是,TARS超过了在28.8k样本上训练的5倍LLM数据增强(幻觉率:16.0% vs. 13.2%),表明通过对抗性token扰动重塑优化格局比扩展训练数据更有效。TARS进一步缩小了与GPT-4o在关键指标上的差距。

🔬 方法详解

问题定义:多模态大语言模型(MLLMs)在生成文本时,容易产生与视觉内容不符的“幻觉”现象。现有的直接偏好优化(DPO)方法在训练时,容易过度依赖文本的表面信息,而忽略了视觉信息的 grounding,导致模型生成看似合理但实际上错误的描述。

核心思路:TARS的核心思路是将DPO训练过程转化为一个min-max优化问题。通过对抗性地扰动那些与视觉信息无关的token,迫使模型更加关注视觉信号,从而减少幻觉的产生。这种方法旨在提高模型对视觉信息的鲁棒性,使其能够更好地理解和利用视觉内容。

技术框架:TARS的技术框架主要包含以下几个部分:1) Token扰动模块:选择性地扰动视觉无关的token,模拟最坏情况下的分布偏移。2) Min-Max优化:通过内部最大化寻找最差的token扰动,然后通过外部最小化来优化模型参数,使其对这些扰动具有鲁棒性。3) 频谱对齐损失:利用快速傅里叶变换(FFT)在频域中正则化隐藏表示,保留全局语义结构,避免token级别的严格对应。

关键创新:TARS最重要的创新在于其token自适应的偏好策略,通过min-max优化来提高模型对视觉信息的鲁棒性。与传统的DPO方法相比,TARS能够更好地利用视觉信息,减少幻觉的产生。此外,频谱对齐损失也是一个创新点,它能够在频域中正则化隐藏表示,保留全局语义结构。

关键设计:在token扰动模块中,需要选择哪些token进行扰动,以及如何进行扰动。论文中可能使用了某种注意力机制或者其他方法来判断token与视觉信息的相关性,并对相关性低的token进行扰动。Min-Max优化中的内外循环分别对应于寻找最差扰动和优化模型参数。频谱对齐损失的具体形式可能涉及到FFT变换后的频谱差异的计算,以及相应的权重设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TARS在幻觉基准测试中表现出色,仅使用4.8k偏好样本,无需专家反馈,将幻觉率从26.4%降低到13.2%,认知得分从2.5降低到0.4,显著优于标准DPO。TARS甚至超越了使用28.8k样本训练的5倍LLM数据增强方法(幻觉率:16.0% vs. 13.2%),并缩小了与GPT-4o在关键指标上的差距。

🎯 应用场景

TARS可应用于各种需要可靠多模态理解的场景,如自动驾驶、医疗影像分析、智能客服和教育。通过减少幻觉,TARS能够提高MLLM在这些领域的应用安全性与可靠性,例如在自动驾驶中准确识别交通信号,或在医疗诊断中避免错误解读医学影像。

📄 摘要(原文)

Multimodal large language models (MLLMs) are prone to hallucinations, generating plausible but visually ungrounded outputs, partly because direct preference optimization (DPO) overfits to superficial linguistic cues under static preference supervision. We propose TARS, a token-adaptive preference strategy that reformulates DPO as a principled min-max optimization problem. The inner maximization selectively perturbs visual-agnostic tokens to induce worst-case distributional shifts, while the outer minimization enforces alignment with causal visual signals rather than surface-level patterns. A novel spectral alignment loss further regularizes hidden representations in the frequency domain via the Fast Fourier Transform (FFT), preserving global semantic structure without rigid token-level correspondence. We evaluate TARS across multiple hallucination benchmarks. Using only 4.8k preference samples without expert feedback, TARS reduces hallucination rates from 26.4\% to 13.2\% and cognition scores from 2.5 to 0.4, outperforming standard DPO by a large margin. Notably, TARS surpasses $5\times$ LLM-based data augmentation trained on 28.8k samples (Hal-Rate: 16.0\% vs.\ 13.2\%), demonstrating that reshaping the optimization landscape via adversarial token perturbation is fundamentally more effective than scaling training data. TARS further narrows the gap with GPT-4o on key metrics.