What's Left Unsaid? Detecting and Correcting Misleading Omissions in Multimodal News Previews

📄 arXiv: 2601.05563v1 📥 PDF

作者: Fanxiao Li, Jiaying Wu, Tingchao Fu, Dayang Li, Herun Wan, Wei Zhou, Min-Yen Kan

分类: cs.CV, cs.SI

发布日期: 2026-01-09


💡 一句话要点

提出OMGuard,通过解读和修正新闻预览中的误导性省略,提升多模态新闻理解。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态新闻理解 误导性检测 信息省略 内容修正 理由引导 对比学习 社交媒体

📋 核心要点

  1. 社交媒体新闻预览可能通过省略关键信息误导读者,现有方法难以有效检测这种隐蔽的误导性。
  2. 论文提出OMGuard,通过解读预览和上下文差异,并利用理由引导修正,来检测和纠正误导性省略。
  3. 实验表明,OMGuard能显著提升多模态误导性检测和修正效果,甚至超越大型语言模型。

📝 摘要(中文)

即使在事实层面正确的情况下,社交媒体上的新闻预览(图像-标题对)也可能通过选择性地省略关键上下文而导致解读偏差,使读者形成与文章全文不符的判断。这种隐蔽的危害比显式的不实信息更难检测,但尚未得到充分探索。为了解决这个问题,我们开发了一个多阶段流程,用于解耦和模拟基于预览的理解与基于上下文的理解,从而构建了MM-Misleading基准。利用该基准,我们系统地评估了开源LVLM,并揭示了其在基于省略的误导性检测方面的明显盲点。我们进一步提出了OMGuard,它集成了(1)用于提高多模态误导性检测的解读感知微调,以及(2)使用显式理由来指导标题重写并减少误导性印象的理由引导的误导性内容修正。实验表明,OMGuard将一个8B模型的检测准确率提升到与235B LVLM相当的水平,并提供了明显更强的端到端修正效果。进一步的分析表明,误导性通常源于局部叙事转变(例如,缺少背景)而不是全局框架变化,并确定了文本修正失败的图像驱动场景,突出了视觉干预的必要性。

🔬 方法详解

问题定义:论文旨在解决社交媒体新闻预览中,由于选择性省略关键上下文信息而导致的误导性问题。现有方法难以有效检测这种基于省略的误导,因为它们通常侧重于检测事实错误,而忽略了上下文缺失造成的理解偏差。这种偏差会使读者对新闻产生与原文不符的解读,造成潜在的危害。

核心思路:论文的核心思路是模拟人类的阅读理解过程,区分基于预览的理解和基于全文上下文的理解。通过对比这两种理解,可以识别出由于信息省略而产生的理解偏差。此外,论文还利用理由(rationale)来指导误导性内容的修正,从而更有效地消除误导。

技术框架:OMGuard包含两个主要模块:(1) Interpretation-Aware Fine-Tuning:用于提高多模态误导性检测能力,通过对比预览和全文的理解差异来训练模型;(2) Rationale-Guided Misleading Content Correction:用于修正误导性内容,利用显式的理由来指导标题重写,减少误导性印象。整体流程包括:首先,使用多阶段流程解耦和模拟预览理解和上下文理解;然后,利用Interpretation-Aware Fine-Tuning模块训练模型进行误导性检测;最后,使用Rationale-Guided Misleading Content Correction模块修正误导性内容。

关键创新:论文的关键创新在于:(1) 提出了一个多阶段流程,用于解耦和模拟预览理解和上下文理解,从而构建了MM-Misleading基准;(2) 提出了OMGuard框架,该框架集成了Interpretation-Aware Fine-Tuning和Rationale-Guided Misleading Content Correction,能够有效地检测和修正基于省略的误导性信息;(3) 利用理由(rationale)来指导误导性内容的修正,提高了修正的准确性和可解释性。

关键设计:在Interpretation-Aware Fine-Tuning模块中,使用了对比学习的方法,通过对比预览和全文的理解差异来训练模型。在Rationale-Guided Misleading Content Correction模块中,使用了序列到序列的模型,利用显式的理由来指导标题重写。具体的损失函数和网络结构等技术细节在论文中进行了详细描述,但摘要中未明确提及具体参数设置。

📊 实验亮点

实验结果表明,OMGuard能够显著提升多模态误导性检测和修正效果。具体来说,OMGuard将一个8B模型的检测准确率提升到与235B LVLM相当的水平。此外,OMGuard在端到端修正任务中也表现出明显更强的性能。分析还发现,误导性通常源于局部叙事转变,并识别出文本修正失败的图像驱动场景。

🎯 应用场景

该研究成果可应用于社交媒体平台的内容审核、新闻推荐系统和信息过滤等领域。通过自动检测和修正误导性新闻预览,可以减少虚假信息传播,提升用户对新闻内容的理解准确性,从而改善在线信息生态环境。未来,该技术还可扩展到其他多模态内容,如视频和广告等。

📄 摘要(原文)

Even when factually correct, social-media news previews (image-headline pairs) can induce interpretation drift: by selectively omitting crucial context, they lead readers to form judgments that diverge from what the full article conveys. This covert harm is harder to detect than explicit misinformation yet remains underexplored. To address this gap, we develop a multi-stage pipeline that disentangles and simulates preview-based versus context-based understanding, enabling construction of the MM-Misleading benchmark. Using this benchmark, we systematically evaluate open-source LVLMs and uncover pronounced blind spots to omission-based misleadingness detection. We further propose OMGuard, which integrates (1) Interpretation-Aware Fine-Tuning, which used to improve multimodal misleadingness detection and (2) Rationale-Guided Misleading Content Correction, which uses explicit rationales to guide headline rewriting and reduce misleading impressions. Experiments show that OMGuard lifts an 8B model's detection accuracy to match a 235B LVLM and delivers markedly stronger end-to-end correction. Further analysis reveals that misleadingness typically stems from local narrative shifts (e.g., missing background) rather than global frame changes, and identifies image-driven scenarios where text-only correction fails, highlighting the necessity of visual interventions.