Latent Causal Void: Explicit Missing-Context Reconstruction for Misinformation Detection
作者: Hui Li, Zhongquan Jian, Jinsong Su, Junfeng Yao
分类: cs.CL, cs.SI
发布日期: 2026-05-12
💡 一句话要点
提出隐性因果空洞(LCV),通过显式重建缺失上下文来提升信息检测性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 虚假信息检测 缺失上下文重建 大型语言模型 图神经网络 异构图
📋 核心要点
- 现有方法在处理因遗漏关键背景信息而产生的误导性文章时存在不足,无法有效识别缺失的上下文。
- LCV通过检索相关上下文并利用大型语言模型显式重建缺失的事实,从而弥补信息缺口。
- 实验结果表明,LCV在双语数据集上显著优于现有方法,验证了显式建模缺失信息的有效性。
📝 摘要(中文)
当欺骗行为在文章中显式表达时,自动虚假信息检测表现良好。然而,一些虚假信息文章在局部保持连贯,只有与提供背景事实的同期报告进行比较时才会产生误导。我们研究了这种与遗漏相关的场景,并观察到当前感知遗漏的方法通常要么将检索到的上下文作为辅助证据附加,要么推断一个分类遗漏信号,而使具体的缺失事实保持隐式。我们提出了隐性因果空洞(LCV),一种检索引导的检测器,它显式地重建每个目标句子的缺失事实,并将其用作图推理中的文本跨源关系。具体来说,LCV检索时间对齐的上下文文章,要求一个冻结的指令调整的大型语言模型为每个句子-文章对生成一个简短的缺失上下文描述,并将结果关系文本输入到目标句子和上下文文章的异构图中。在Sheng等人的双语基准测试中,LCV在英语和中文分割上分别比最强的感知遗漏基线提高了2.56和2.84个宏F1点。结果表明,对缺失的跨源事实本身进行建模,而不仅仅是附加检索到的证据或预测遗漏信号,是感知遗漏的虚假信息检测的有用表示。
🔬 方法详解
问题定义:论文旨在解决信息检测中,由于文章遗漏关键上下文信息而导致的误导性问题。现有方法要么直接附加检索到的上下文作为辅助证据,要么预测一个类别型的遗漏信号,但都未能显式地建模和利用缺失的上下文信息,导致检测效果不佳。
核心思路:论文的核心思路是显式地重建缺失的上下文信息,并将其作为一种跨源关系用于图推理。通过检索与目标句子相关的上下文文章,并利用大型语言模型生成缺失上下文的描述,从而弥补信息缺口,提高信息检测的准确性。
技术框架:LCV的整体框架包括以下几个主要模块:1) 上下文检索模块:检索与目标句子时间对齐的上下文文章。2) 缺失上下文重建模块:利用冻结的指令调整大型语言模型,为每个句子-文章对生成缺失上下文的简短描述。3) 异构图构建模块:构建一个包含目标句子和上下文文章的异构图,并将重建的缺失上下文作为边连接不同的节点。4) 图推理模块:利用图神经网络在异构图上进行推理,从而判断目标句子是否为虚假信息。
关键创新:LCV最重要的创新点在于显式地重建缺失的上下文信息,并将其作为一种文本形式的跨源关系用于图推理。与以往方法相比,LCV不再仅仅依赖于检索到的证据或预测的遗漏信号,而是直接建模和利用缺失的信息,从而更有效地识别因遗漏关键信息而产生的误导性文章。
关键设计:论文的关键设计包括:1) 使用冻结的指令调整大型语言模型进行缺失上下文重建,避免了对大型语言模型的微调,降低了计算成本。2) 构建异构图,将目标句子和上下文文章连接起来,并利用图神经网络进行推理,从而更好地利用跨源信息。3) 使用宏F1作为评估指标,更全面地评估模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LCV在Sheng等人的双语基准测试中,在英语和中文分割上分别比最强的感知遗漏基线提高了2.56和2.84个宏F1点。这一显著的提升表明,显式建模缺失的跨源事实对于感知遗漏的虚假信息检测是有效的。
🎯 应用场景
该研究成果可应用于新闻真实性检测、舆情分析、社交媒体内容审核等领域,有助于识别和过滤虚假信息,维护网络信息安全,提升公众对信息的辨别能力。未来可进一步扩展到其他语言和领域,例如医学、金融等。
📄 摘要(原文)
Automatic misinformation detection performs well when deception is visible in what an article explicitly states. However, some misinformation articles remain locally coherent and only become misleading once compared with contemporaneous reports that supply background facts the article omits. We study this omission-relevant setting and observe that current omission-aware approaches typically either attach retrieved context as auxiliary evidence or infer a categorical omission signal, leaving the specific missing fact implicit. We propose \emph{Latent Causal Void} (LCV), a retrieval-guided detector that explicitly reconstructs the missing fact for each target sentence and uses it as a textual cross-source relation in graph reasoning. Concretely, LCV retrieves temporally aligned context articles, asks a frozen instruction-tuned large language model to generate a short missing-context description for each sentence--article pair, and feeds the resulting relation text into a heterograph over target sentences and context articles. On the bilingual benchmark of Sheng et al., LCV improves over the strongest omission-aware baseline by $2.56$ and $2.84$ macro-F1 points on the English and Chinese splits, respectively. The results indicate that modeling the missing cross-source fact itself, rather than only attaching retrieved evidence or predicting an omission signal, is a useful representation for omission-aware misinformation detection.