One-shot Optimized Steering Vector for Hallucination Mitigation for VLMs
作者: Youxu Shi, Suorong Yang, Dong Liu
分类: cs.CV
发布日期: 2026-01-30
💡 一句话要点
提出OSGA,通过单样本优化steering vector有效缓解视觉语言模型中的幻觉问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 幻觉缓解 steering vector 单样本学习 对比学习
📋 核心要点
- 现有steering方法在效率和效果之间存在权衡,难以兼顾幻觉抑制和安全增强。
- OSGA通过选择信息量大的样本,学习一个通用的steering vector,无需修改模型参数即可应用。
- 实验表明,OSGA在多个基准测试中,以极小的开销显著改善了幻觉缓解和安全性。
📝 摘要(中文)
视觉语言模型(VLMs)在多模态任务上表现出色,但仍存在幻觉和安全相关的问题,即使在扩大规模后仍然存在。Steering提供了一种轻量级技术来提高模型性能。然而,steering,无论是输入相关的还是输入无关的,都在效率和有效性之间实现了有意义的权衡。在这项工作中,我们观察到,当任务共享对齐的语义意图时,steering vector可以跨输入泛化。基于这一洞察,我们提出了OSGA(具有生成锚的单样本Steering),这是一种输入无关的框架,通过单个优化实例提高模型性能。OSGA首先通过基于方差的数据选择策略选择一个信息丰富的样本,并利用生成锚正则化的对比目标学习单个steering vector。所得到的向量可以在推理时普遍应用于特定层,而无需修改模型参数。跨多个基准的实验表明,单个OSGA优化的steering vector始终可以改善幻觉缓解和安全增强,且开销可忽略不计,突出了单样本steering作为可靠VLM的实用且可扩展的解决方案。
🔬 方法详解
问题定义:视觉语言模型(VLMs)在多模态任务中表现出色,但仍然存在幻觉问题和安全隐患。现有的steering方法,无论是输入相关的还是输入无关的,都难以在效率和效果之间取得平衡。输入相关的steering方法计算成本高,而输入无关的方法效果可能不够理想。
核心思路:论文的核心思路是,如果多个任务具有对齐的语义意图,那么steering vector可以跨输入泛化。因此,可以通过优化一个具有代表性的样本来学习一个通用的steering vector,从而在推理时应用于所有输入,以缓解幻觉并提高安全性。
技术框架:OSGA(One-shot Steering with Generative Anchor)框架主要包含两个阶段:1) 数据选择阶段:通过基于方差的数据选择策略,从数据集中选择一个信息量最大的样本作为anchor。2) Steering Vector优化阶段:使用对比学习目标,结合生成锚正则化,优化一个steering vector。该steering vector在推理时被添加到VLMs的特定层,无需修改模型参数。
关键创新:OSGA的关键创新在于提出了一种单样本优化的steering方法,通过选择具有代表性的样本并学习通用的steering vector,实现了在效率和效果之间的平衡。与现有方法相比,OSGA只需要一次优化,即可在推理时应用于所有输入,大大降低了计算成本。此外,生成锚正则化有助于提高steering vector的泛化能力。
关键设计:OSGA的关键设计包括:1) 基于方差的数据选择策略,用于选择信息量最大的样本。2) 对比学习目标,用于学习steering vector,鼓励相似样本的表示靠近,不同样本的表示远离。3) 生成锚正则化,用于提高steering vector的泛化能力。具体来说,生成锚正则化通过生成多个anchor,并约束steering vector与这些anchor之间的关系,从而提高其鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过单样本优化得到的steering vector,OSGA在多个基准测试中显著改善了幻觉缓解和安全性,且计算开销极小。具体性能提升数据在论文中给出,与现有steering方法相比,OSGA在效率和效果上都具有优势,证明了其作为可靠VLM解决方案的实用性和可扩展性。
🎯 应用场景
该研究成果可应用于各种需要缓解幻觉和提高安全性的视觉语言模型应用场景,例如图像描述、视觉问答、机器人导航等。通过使用OSGA,可以显著提高这些应用的可靠性和安全性,减少错误信息的产生,从而提升用户体验和信任度。此外,该方法具有良好的可扩展性,可以轻松应用于不同的VLMs和任务。
📄 摘要(原文)
Vision Language Models (VLMs) achieve strong performance on multimodal tasks but still suffer from hallucination and safety-related failures that persist even at scale. Steering offers a lightweight technique to improve model performance. However, steering, whether input-dependent or input-independent, achieves a meaningful trade-off between efficiency and effectiveness. In this work, we observe that steering vectors can generalize across inputs when tasks share aligned semantic intent. Based on this insight, we propose \textbf{OSGA} (\textbf{O}ne-shot \textbf{S}teering with \textbf{G}enerative \textbf{A}nchor), an input-independent framework that improves model performance with a single optimization instance. OSGA first selects an informative sample via a variance-based data selection strategy and learns a single steering vector with a contrastive objective with generative anchor regularization. The resulting vector can be universally applied at a certain layer during inference time without modifying model parameters. Experiments across multiple benchmarks show that a single OSGA-optimized steering vector consistently improves hallucination mitigation and safety enhancement with negligible overhead, highlighting one-shot steering as a practical and scalable solution for reliable VLMs.