Token-Level Inference-Time Alignment for Vision-Language Models

作者: Kejia Chen, Jiawen Zhang, Jiacong Hu, Kewei Gao, Jian Lou, Zunlei Feng, Mingli Song

分类: cs.CV, cs.AI

发布日期: 2025-10-20

💡 一句话要点

提出TITA：一种用于视觉-语言模型token级推理时对齐的轻量级框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 推理时对齐 幻觉减少 奖励模型 直接偏好优化 多模态学习 token级反馈

📋 核心要点

现有视觉-语言模型易产生幻觉，输出与视觉输入不符，而现有对齐方法依赖昂贵的微调或粗粒度的序列级反馈。
TITA框架通过训练奖励模型近似VLM分布，提取隐式偏好信号作为token级反馈，实现推理时对齐，无需重训练。
实验表明，TITA在多个基准测试中提升了性能，显著减少了幻觉，并在推理时开销极小。

📝 摘要（中文）

视觉-语言模型(VLMs)已成为现代多模态智能的关键骨干，但其输出仍然容易产生幻觉，即生成与视觉输入不一致的看似合理的文本。现有的对齐方法通常依赖于昂贵的、带有标注偏好数据的微调，或者仅提供粗粒度、延迟反馈的序列级推理策略。为了克服这些限制，我们提出了TITA（Token-level Inference-Time Alignment），这是一个轻量级框架，它冻结了基础VLM，而是训练一个奖励模型来近似其分布。在推理过程中，隐式偏好信号被提取为奖励模型和目标VLM之间的对数概率比，从而产生密集的自回归反馈。这种公式可以被看作是直接偏好优化(DPO)的推理时变体，提供token级别的校正信号，而无需重新训练骨干网络。在LLaVA-1.5-7B和13B上的广泛评估表明，在12个基准测试中都取得了持续的收益，在MMVet上提高了8.6%，在POPE上提高了6.7%，表明更强的通用理解能力和减少的幻觉。在Qwen2.5-VL-7B和DeepSeek-VL2-27.5B上的额外实验显示了相当的收益，尤其是在减少幻觉和提高VQA准确性方面，同时产生的推理开销可以忽略不计。

🔬 方法详解

问题定义：视觉-语言模型（VLMs）在生成文本时容易产生幻觉，即生成与输入图像不一致但语法上合理的文本。现有的对齐方法，如微调或序列级推理，存在成本高昂、反馈延迟或粒度粗糙等问题，难以有效减少幻觉。

核心思路：TITA的核心思路是在推理时对齐VLM的输出，通过奖励模型提供token级别的反馈信号，引导VLM生成更符合视觉输入的文本。该方法借鉴了直接偏好优化（DPO）的思想，但将其应用于推理阶段，避免了重新训练VLM的需要。

技术框架：TITA框架包含两个主要模块：冻结的基础VLM和一个可训练的奖励模型。在推理过程中，首先使用VLM生成文本，然后使用奖励模型评估每个token的质量。奖励模型和VLM的对数概率比被用作隐式偏好信号，为VLM提供token级别的校正反馈。这个过程是自回归的，即每个token的生成都受到之前token的影响。

关键创新：TITA的关键创新在于将DPO的思想应用于推理阶段，实现了token级别的对齐，而无需重新训练VLM。通过训练一个轻量级的奖励模型，TITA能够有效地提取隐式偏好信号，并将其转化为token级别的反馈，从而引导VLM生成更准确的文本。

关键设计：奖励模型的设计至关重要，它需要能够准确地评估每个token的质量。论文中使用了Transformer架构的奖励模型，并使用VLM的输出作为输入。损失函数的设计也需要仔细考虑，以确保奖励模型能够学习到正确的偏好。此外，如何有效地将奖励模型的反馈融入到VLM的生成过程中也是一个关键的设计问题。论文中使用了对数概率比作为反馈信号，并将其添加到VLM的输出概率中。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TITA在LLaVA-1.5-7B和13B上取得了显著的性能提升，在MMVet上提高了8.6%，在POPE上提高了6.7%。此外，TITA在Qwen2.5-VL-7B和DeepSeek-VL2-27.5B上也取得了相当的收益，尤其是在减少幻觉和提高VQA准确性方面。值得注意的是，TITA的推理开销可以忽略不计，使其具有很强的实用性。

🎯 应用场景

TITA可应用于各种需要减少幻觉的视觉-语言任务，例如图像描述、视觉问答、视觉对话等。该方法能够提高VLM的可靠性和准确性，使其在实际应用中更具价值。例如，在医疗影像诊断中，减少幻觉可以避免误诊，提高诊断的准确性。在自动驾驶领域，减少幻觉可以提高车辆对周围环境的感知能力，从而提高安全性。

📄 摘要（原文）

Vision-Language Models (VLMs) have become essential backbones of modern multimodal intelligence, yet their outputs remain prone to hallucination-plausible text misaligned with visual inputs. Existing alignment approaches often rely on expensive fine-tuning with annotated preference data or sequence-level inference strategies that provide only coarse, delayed feedback. To overcome these limitations, we present TITA (Token-level Inference-Time Alignment), a lightweight framework that freezes the base VLM and instead trains a reward model to approximate its distribution. During inference, implicit preference signals are extracted as log-probability ratios between the reward model and the target VLM, yielding dense autoregressive feedback. This formulation can be viewed as an inference-time variant of Direct Preference Optimization (DPO), providing token-level corrective signals without retraining the backbone. Extensive evaluations on LLaVA-1.5-7B and 13B show consistent gains across 12 benchmarks, with improvements of 8.6% on MMVet and 6.7% on POPE, indicating stronger general understanding and reduced hallucinations. Additional experiments on Qwen2.5-VL-7B and DeepSeek-VL2-27.5B show comparable gains, especially in hallucination reduction and VQA accuracy, while incurring negligible inference overhead.

Token-Level Inference-Time Alignment for Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理