Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models

📄 arXiv: 2507.04976v1 📥 PDF

作者: Eunseop Yoon, Hee Suk Yoon, Mark A. Hasegawa-Johnson, Chang D. Yoo

分类: cs.CV, cs.CL

发布日期: 2025-07-07

备注: ICLR 2025


💡 一句话要点

提出对齐可回答性框架,提升视频大语言模型拒绝回答不相关问题的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 可回答性对齐 多模态学习 拒绝回答 视频理解

📋 核心要点

  1. 现有Video-LLM在超出视频信息范围的问题上表现不佳,缺乏拒绝回答不相关问题的能力。
  2. 提出对齐可回答性框架,使Video-LLM能够评估问题与视频的相关性,并拒绝回答超出范围的问题。
  3. 构建了评估框架和数据集pipeline,用于衡量和提升模型在可回答性对齐方面的性能。

📝 摘要(中文)

多模态大语言模型通过利用强大的大语言模型作为骨干,将不同模态对齐到语言空间,取得了显著突破。视频大语言模型(Video-LLM)是其中的典型代表。虽然已经提出了许多增强这些模型视频理解能力的方法,但它们主要是在直接从视频内容生成的问题上进行训练。然而,在现实场景中,用户经常提出超出视频信息范围的问题,这突显了Video-LLM评估问题相关性的必要性。本文证明,即使是性能最佳的Video-LLM也无法拒绝不合适的问题,这并非由于缺乏视频理解,而是因为它们没有经过训练来识别和拒绝此类问题。为了解决这个限制,本文提出了对齐可回答性框架,该框架使Video-LLM能够评估问题基于输入视频的相关性,并在问题超出视频范围时适当地拒绝回答。同时,本文提出了一个评估框架,包含一套全面的指标,用于衡量对齐前后模型的行为。此外,本文还提出了一个pipeline,用于创建专门为对齐可回答性量身定制的数据集,利用现有的视频-描述配对数据集。

🔬 方法详解

问题定义:现有Video-LLM虽然在视频理解方面取得了进展,但它们通常在直接从视频内容生成的问题上进行训练。现实场景中,用户会提出超出视频信息范围的问题,而现有模型缺乏识别和拒绝回答这些不相关问题的能力。这限制了Video-LLM在实际应用中的可靠性。

核心思路:本文的核心思路是训练Video-LLM评估问题与输入视频的相关性,使其能够区分可回答和不可回答的问题。通过对模型进行“可回答性对齐”,使其学会拒绝回答超出视频信息范围的问题,从而提高模型的实用性和可靠性。这种对齐并非侧重于增强视频理解能力,而是侧重于教会模型何时应该保持沉默。

技术框架:该方法包含三个主要部分:1) 对齐可回答性框架,用于训练Video-LLM拒绝回答不相关问题;2) 评估框架,包含一套指标,用于衡量对齐前后模型的行为;3) 数据集pipeline,用于创建专门为对齐可回答性量身定制的数据集。该pipeline利用现有的视频-描述配对数据集,通过生成相关和不相关的问题来扩充数据集。

关键创新:该方法最重要的创新点在于提出了“对齐可回答性”的概念,并将其应用于Video-LLM。与以往侧重于增强视频理解能力的研究不同,该方法侧重于教会模型何时应该拒绝回答问题。这使得模型在面对超出其知识范围的问题时,能够避免给出错误或误导性的答案。此外,提出的数据集pipeline和评估框架也为后续研究提供了有价值的工具。

关键设计:数据集构建的关键在于生成负样本(即不可回答的问题)。论文利用现有视频-描述对数据,通过修改或添加与视频内容无关的信息来生成负样本。损失函数的设计可能包括一个分类损失,用于区分可回答和不可回答的问题,以及一个语言模型损失,用于保证模型在回答可回答问题时的流畅性和准确性。具体的网络结构细节取决于所使用的Video-LLM骨干网络,但通常会增加一个可回答性分类器,用于评估问题与视频的相关性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了对齐可回答性框架,并构建了相应的数据集和评估框架。实验结果(具体数值未知)表明,该方法能够有效提升Video-LLM拒绝回答不相关问题的能力,提高模型的可靠性和实用性。通过对齐可回答性,模型能够更好地适应真实场景中复杂多变的用户提问。

🎯 应用场景

该研究成果可应用于智能客服、视频搜索、教育等领域。例如,在智能客服中,Video-LLM可以根据用户提出的问题,判断是否能够从视频中找到答案,避免给出错误或无关的回复。在视频搜索中,可以帮助用户更准确地找到所需信息。在教育领域,可以用于辅助教学,回答学生关于视频内容的问题,并拒绝回答超出教学范围的问题,从而保证教学质量。

📄 摘要(原文)

In the broader context of deep learning, Multimodal Large Language Models have achieved significant breakthroughs by leveraging powerful Large Language Models as a backbone to align different modalities into the language space. A prime exemplification is the development of Video Large Language Models (Video-LLMs). While numerous advancements have been proposed to enhance the video understanding capabilities of these models, they are predominantly trained on questions generated directly from video content. However, in real-world scenarios, users often pose questions that extend beyond the informational scope of the video, highlighting the need for Video-LLMs to assess the relevance of the question. We demonstrate that even the best-performing Video-LLMs fail to reject unfit questions-not necessarily due to a lack of video understanding, but because they have not been trained to identify and refuse such questions. To address this limitation, we propose alignment for answerability, a framework that equips Video-LLMs with the ability to evaluate the relevance of a question based on the input video and appropriately decline to answer when the question exceeds the scope of the video, as well as an evaluation framework with a comprehensive set of metrics designed to measure model behavior before and after alignment. Furthermore, we present a pipeline for creating a dataset specifically tailored for alignment for answerability, leveraging existing video-description paired datasets.