NewsRECON: News article REtrieval for image CONtextualization
作者: Jonathan Tonglet, Iryna Gurevych, Tinne Tuytelaars, Marie-Francine Moens
分类: cs.CL
发布日期: 2026-01-20
备注: Preprint under review. Code available at https://github.com/jtonglet/arxiv2025-newsrecon
💡 一句话要点
NewsRECON:提出一种新闻文章检索方法,用于图像上下文推断,解决反向图像搜索失效问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 新闻图像上下文推断 新闻文章检索 双编码器 交叉编码器 位置一致性 事件一致性 反向图像搜索 多模态学习
📋 核心要点
- 现有方法依赖反向图像搜索,但其失效限制了新闻图像时间地点推断的实际应用。
- NewsRECON通过检索相关新闻文章,利用文章元数据推断图像的拍摄时间和地点。
- 实验表明,NewsRECON优于现有方法,并可与多模态大语言模型结合,实现SOTA结果。
📝 摘要(中文)
为了帮助记者和取证专家制作可信的故事并揭穿虚假信息,识别新闻图像的拍摄时间和地点至关重要。虽然许多现有方法依赖于反向图像搜索(RIS)引擎,但这些工具经常无法返回结果,从而限制了它们的实际应用。本文针对RIS证据不可用的具有挑战性的场景,提出了一种名为NewsRECON的方法,该方法将图像链接到相关的新闻文章,以从文章元数据中推断其日期和位置。NewsRECON利用包含超过90,000篇文章的语料库,并集成了:(1)用于检索事件相关文章的双编码器;(2)两个交叉编码器,用于按位置和事件一致性对文章进行重新排序。在TARA和5Pils-OOC上的实验表明,NewsRECON优于先前的工作,并且可以与多模态大型语言模型结合使用,在没有RIS证据的情况下实现新的SOTA结果。我们公开了代码。
🔬 方法详解
问题定义:论文旨在解决在反向图像搜索(RIS)失效时,如何确定新闻图像的拍摄时间和地点的问题。现有方法严重依赖RIS,但RIS的覆盖率和准确性有限,导致在许多实际场景中无法应用。因此,需要一种不依赖RIS的新方法来推断图像的上下文信息。
核心思路:论文的核心思路是将图像与相关的新闻文章联系起来,利用新闻文章的元数据(如发布日期、地点等)来推断图像的拍摄时间和地点。这种方法的核心假设是,新闻图像通常与特定的新闻事件相关联,而这些事件会在新闻文章中被报道。
技术框架:NewsRECON的整体框架包含以下几个主要模块:1) 双编码器(Bi-encoder):用于从大规模新闻文章语料库中检索与图像相关的候选文章。图像和文章分别通过独立的编码器进行编码,然后计算它们之间的相似度。2) 位置交叉编码器(Location Cross-encoder):对候选文章按照与图像位置的相关性进行重新排序。该模块将图像和文章的位置信息同时输入到一个交叉编码器中,以评估它们之间的位置一致性。3) 事件交叉编码器(Event Cross-encoder):对候选文章按照与图像事件的相关性进行重新排序。该模块将图像和文章的文本信息同时输入到一个交叉编码器中,以评估它们之间的事件一致性。
关键创新:NewsRECON的关键创新在于它提出了一种不依赖RIS的新闻图像上下文推断方法。与现有方法相比,NewsRECON能够处理RIS失效的场景,并且通过结合双编码器和交叉编码器,能够更准确地检索到与图像相关的文章。此外,论文还提出了使用位置和事件一致性来重新排序候选文章的方法,进一步提高了推断的准确性。
关键设计:在双编码器中,图像和文章分别使用预训练的视觉模型和文本模型进行编码。在交叉编码器中,图像和文章的信息被拼接在一起,然后输入到一个Transformer模型中进行编码。损失函数采用交叉熵损失,用于训练模型预测图像和文章是否相关。具体参数设置和网络结构细节在论文中有详细描述,包括使用的预训练模型、Transformer模型的层数和维度等。
🖼️ 关键图片
📊 实验亮点
NewsRECON在TARA和5Pils-OOC数据集上进行了评估,实验结果表明,NewsRECON显著优于现有的基线方法。具体而言,在没有RIS证据的情况下,NewsRECON能够达到SOTA的性能,并且可以与多模态大型语言模型结合使用,进一步提高推断的准确性。论文还进行了消融实验,验证了双编码器和交叉编码器的有效性。
🎯 应用场景
NewsRECON可应用于新闻媒体、事实核查、数字取证等领域。它可以帮助记者快速确定新闻图像的拍摄时间和地点,提高新闻报道的准确性和可信度。在事实核查方面,它可以用于验证图像的真实性,揭穿虚假信息。在数字取证方面,它可以帮助调查人员分析图像的来源和传播路径,为案件侦破提供线索。该研究的未来影响在于,它可以促进新闻图像的自动化分析和理解,提高信息检索和知识发现的效率。
📄 摘要(原文)
Identifying when and where a news image was taken is crucial for journalists and forensic experts to produce credible stories and debunk misinformation. While many existing methods rely on reverse image search (RIS) engines, these tools often fail to return results, thereby limiting their practical applicability. In this work, we address the challenging scenario where RIS evidence is unavailable. We introduce NewsRECON, a method that links images to relevant news articles to infer their date and location from article metadata. NewsRECON leverages a corpus of over 90,000 articles and integrates: (1) a bi-encoder for retrieving event-relevant articles; (2) two cross-encoders for reranking articles by location and event consistency. Experiments on the TARA and 5Pils-OOC show that NewsRECON outperforms prior work and can be combined with a multimodal large language model to achieve new SOTA results in the absence of RIS evidence. We make our code available.