News Deja Vu: Connecting Past and Present with Semantic Search

📄 arXiv: 2406.15593v2 📥 PDF

作者: Brevin Franklin, Emily Silcock, Abhishek Arora, Tom Bryan, Melissa Dell

分类: cs.CL, econ.GN

发布日期: 2024-06-21 (更新: 2024-12-19)


💡 一句话要点

News Deja Vu:利用语义搜索连接历史与现代新闻,辅助社会科学研究。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义搜索 历史新闻 双编码器 Transformer 对比学习

📋 核心要点

  1. 现有方法在处理大规模含噪声历史文本时,关键词搜索等方法受限于词汇复杂性和OCR错误。
  2. News Deja Vu通过Transformer和双编码器,识别与现代新闻语义相似的历史文章,并屏蔽实体以关注更广泛的相似性。
  3. 该工具包易于使用,适用于大型文本数据集,并已成功部署到大规模历史新闻语料库中。

📝 摘要(中文)

社会科学家和公众经常通过将当代事件与历史进行对比来分析,但浩瀚、嘈杂和非结构化的历史文本使得这一过程变得复杂。例如,数亿页历史报纸扫描件的转录存在大量噪声。传统的稀疏方法(如关键词搜索)在这些大型语料库中查找相关材料时,由于复杂的词汇和OCR噪声而显得脆弱。本研究介绍了一种名为News Deja Vu的新型语义搜索工具,它利用Transformer大型语言模型和双编码器方法来识别与现代新闻查询最相似的历史新闻文章。News Deja Vu首先识别并屏蔽实体,以便关注更广泛的相似之处,而不是讨论的特定命名实体。然后,经过对比训练的轻量级双编码器检索在语义上与现代查询最相似的历史文章,展示了看似当今独有的现象如何具有不同的历史先例。News Deja Vu旨在为社会科学家提供用户友好的工具包,方便那些不熟悉深度学习的人使用。它可以处理大型文本数据集,并且我们展示了如何将其部署到大规模的开源历史新闻文章语料库中。虽然人类专业知识对于获得更深入的见解仍然很重要,但News Deja Vu提供了一个强大的工具,用于探索人们如何看待过去和现在的相似之处。

🔬 方法详解

问题定义:论文旨在解决社会科学家和公众在分析当代事件时,难以从大量、嘈杂的历史新闻文本中找到相关历史先例的问题。传统基于关键词的搜索方法在处理包含OCR噪声和复杂词汇的历史文本时表现不佳,无法有效捕捉语义相似性。

核心思路:论文的核心思路是利用语义搜索技术,通过学习现代新闻查询和历史新闻文章的语义表示,找到语义上最相似的历史文章。通过屏蔽命名实体,模型可以关注更广泛的事件和趋势,而不是特定的实体。

技术框架:News Deja Vu的技术框架主要包含以下几个阶段:1) 实体识别与屏蔽:识别并屏蔽新闻文本中的命名实体。2) 双编码器模型训练:使用对比学习方法训练一个双编码器模型,将现代新闻查询和历史新闻文章编码成语义向量。3) 相似度计算与检索:计算现代新闻查询的语义向量与历史新闻文章的语义向量之间的相似度,并检索相似度最高的历史文章。

关键创新:该方法的关键创新在于:1) 实体屏蔽:通过屏蔽实体,模型可以关注更广泛的语义相似性,而不是被特定实体所限制。2) 对比学习:使用对比学习方法训练双编码器模型,使得语义相似的文章在向量空间中更接近,从而提高检索的准确性。3) 轻量级双编码器:采用轻量级双编码器,使其能够处理大规模的历史新闻语料库。

关键设计:在实体屏蔽阶段,使用了预训练的命名实体识别模型。在双编码器模型训练阶段,使用了对比损失函数,例如InfoNCE。双编码器的具体网络结构未知,但推测使用了Transformer encoder。对比学习的负样本选择策略未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文展示了News Deja Vu在识别与现代新闻查询相关的历史新闻文章方面的有效性。虽然论文中没有提供具体的性能数据和对比基线,但强调了该工具能够发现传统关键词搜索方法难以找到的历史先例。该工具的易用性和可扩展性使其能够应用于大规模的历史新闻语料库。

🎯 应用场景

News Deja Vu可应用于社会科学研究、历史研究、新闻分析等领域。它可以帮助研究人员快速找到与当前事件相关的历史先例,从而更深入地理解事件的背景和发展趋势。该工具还可以用于新闻媒体,帮助记者撰写更具深度和广度的报道。未来,该技术可以扩展到其他类型的历史文本,例如书籍、期刊等。

📄 摘要(原文)

Social scientists and the general public often analyze contemporary events by drawing parallels with the past, a process complicated by the vast, noisy, and unstructured nature of historical texts. For example, hundreds of millions of page scans from historical newspapers have been noisily transcribed. Traditional sparse methods for searching for relevant material in these vast corpora, e.g., with keywords, can be brittle given complex vocabularies and OCR noise. This study introduces News Deja Vu, a novel semantic search tool that leverages transformer large language models and a bi-encoder approach to identify historical news articles that are most similar to modern news queries. News Deja Vu first recognizes and masks entities, in order to focus on broader parallels rather than the specific named entities being discussed. Then, a contrastively trained, lightweight bi-encoder retrieves historical articles that are most similar semantically to a modern query, illustrating how phenomena that might seem unique to the present have varied historical precedents. Aimed at social scientists, the user-friendly News Deja Vu package is designed to be accessible for those who lack extensive familiarity with deep learning. It works with large text datasets, and we show how it can be deployed to a massive scale corpus of historical, open-source news articles. While human expertise remains important for drawing deeper insights, News Deja Vu provides a powerful tool for exploring parallels in how people have perceived past and present.