Token-Level Inference-Time Alignment for Vision-Language Models

📄 arXiv: 2510.21794v1 📥 PDF

作者: Kejia Chen, Jiawen Zhang, Jiacong Hu, Kewei Gao, Jian Lou, Zunlei Feng, Mingli Song

分类: cs.CV, cs.AI

发布日期: 2025-10-20


💡 一句话要点

提出TITA:一种用于视觉-语言模型token级推理时对齐的轻量级框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 推理时对齐 幻觉减少 奖励模型 直接偏好优化 多模态学习 token级反馈

📋 核心要点

  1. 现有视觉-语言模型易产生幻觉,输出与视觉输入不符,而现有对齐方法依赖昂贵的微调或粗粒度的序列级反馈。
  2. TITA框架通过训练奖励模型近似VLM分布,提取隐式偏好信号作为token级反馈,实现推理时对齐,无需重训练。
  3. 实验表明,TITA在多个基准测试中提升了性能,显著减少了幻觉,并在推理时开销极小。

📝 摘要(中文)

视觉-语言模型(VLMs)已成为现代多模态智能的关键骨干,但其输出仍然容易产生幻觉,即生成与视觉输入不一致的看似合理的文本。现有的对齐方法通常依赖于昂贵的、带有标注偏好数据的微调,或者仅提供粗粒度、延迟反馈的序列级推理策略。为了克服这些限制,我们提出了TITA(Token-level Inference-Time Alignment),这是一个轻量级框架,它冻结了基础VLM,而是训练一个奖励模型来近似其分布。在推理过程中,隐式偏好信号被提取为奖励模型和目标VLM之间的对数概率比,从而产生密集的自回归反馈。这种公式可以被看作是直接偏好优化(DPO)的推理时变体,提供token级别的校正信号,而无需重新训练骨干网络。在LLaVA-1.5-7B和13B上的广泛评估表明,在12个基准测试中都取得了持续的收益,在MMVet上提高了8.6%,在POPE上提高了6.7%,表明更强的通用理解能力和减少的幻觉。在Qwen2.5-VL-7B和DeepSeek-VL2-27.5B上的额外实验显示了相当的收益,尤其是在减少幻觉和提高VQA准确性方面,同时产生的推理开销可以忽略不计。

🔬 方法详解

问题定义:视觉-语言模型(VLMs)在生成文本时容易产生幻觉,即生成与输入图像不一致但语法上合理的文本。现有的对齐方法,如微调或序列级推理,存在成本高昂、反馈延迟或粒度粗糙等问题,难以有效减少幻觉。

核心思路:TITA的核心思路是在推理时对齐VLM的输出,通过奖励模型提供token级别的反馈信号,引导VLM生成更符合视觉输入的文本。该方法借鉴了直接偏好优化(DPO)的思想,但将其应用于推理阶段,避免了重新训练VLM的需要。

技术框架:TITA框架包含两个主要模块:冻结的基础VLM和一个可训练的奖励模型。在推理过程中,首先使用VLM生成文本,然后使用奖励模型评估每个token的质量。奖励模型和VLM的对数概率比被用作隐式偏好信号,为VLM提供token级别的校正反馈。这个过程是自回归的,即每个token的生成都受到之前token的影响。

关键创新:TITA的关键创新在于将DPO的思想应用于推理阶段,实现了token级别的对齐,而无需重新训练VLM。通过训练一个轻量级的奖励模型,TITA能够有效地提取隐式偏好信号,并将其转化为token级别的反馈,从而引导VLM生成更准确的文本。

关键设计:奖励模型的设计至关重要,它需要能够准确地评估每个token的质量。论文中使用了Transformer架构的奖励模型,并使用VLM的输出作为输入。损失函数的设计也需要仔细考虑,以确保奖励模型能够学习到正确的偏好。此外,如何有效地将奖励模型的反馈融入到VLM的生成过程中也是一个关键的设计问题。论文中使用了对数概率比作为反馈信号,并将其添加到VLM的输出概率中。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TITA在LLaVA-1.5-7B和13B上取得了显著的性能提升,在MMVet上提高了8.6%,在POPE上提高了6.7%。此外,TITA在Qwen2.5-VL-7B和DeepSeek-VL2-27.5B上也取得了相当的收益,尤其是在减少幻觉和提高VQA准确性方面。值得注意的是,TITA的推理开销可以忽略不计,使其具有很强的实用性。

🎯 应用场景

TITA可应用于各种需要减少幻觉的视觉-语言任务,例如图像描述、视觉问答、视觉对话等。该方法能够提高VLM的可靠性和准确性,使其在实际应用中更具价值。例如,在医疗影像诊断中,减少幻觉可以避免误诊,提高诊断的准确性。在自动驾驶领域,减少幻觉可以提高车辆对周围环境的感知能力,从而提高安全性。

📄 摘要(原文)

Vision-Language Models (VLMs) have become essential backbones of modern multimodal intelligence, yet their outputs remain prone to hallucination-plausible text misaligned with visual inputs. Existing alignment approaches often rely on expensive fine-tuning with annotated preference data or sequence-level inference strategies that provide only coarse, delayed feedback. To overcome these limitations, we present TITA (Token-level Inference-Time Alignment), a lightweight framework that freezes the base VLM and instead trains a reward model to approximate its distribution. During inference, implicit preference signals are extracted as log-probability ratios between the reward model and the target VLM, yielding dense autoregressive feedback. This formulation can be viewed as an inference-time variant of Direct Preference Optimization (DPO), providing token-level corrective signals without retraining the backbone. Extensive evaluations on LLaVA-1.5-7B and 13B show consistent gains across 12 benchmarks, with improvements of 8.6% on MMVet and 6.7% on POPE, indicating stronger general understanding and reduced hallucinations. Additional experiments on Qwen2.5-VL-7B and DeepSeek-VL2-27.5B show comparable gains, especially in hallucination reduction and VQA accuracy, while incurring negligible inference overhead.