Rewrite the News: Tracing Editorial Reuse Across News Agencies
作者: Soveatin Kuntur, Nina Smirnova, Anna Wroblewska, Philipp Mayr, Sebastijan Razboršek Maček
分类: cs.CL, cs.IR
发布日期: 2026-03-31
备注: The paper is accepted to SoCon-NLPSI 2026 : Social Context (SoCon) and Integrating NLP and Psychology to Study Social Interactions (NLPSI) workshop co-located with LREC 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出一种弱监督跨语言文本复用检测方法,用于新闻机构内容溯源。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨语言文本复用 弱监督学习 新闻内容溯源 时间戳分析 多语种新闻 文本相似度 信息传播
📋 核心要点
- 现有方法难以在多语言新闻报道中有效检测句子级别的文本复用,尤其是在缺乏完整翻译的情况下。
- 该论文提出一种弱监督方法,利用发布时间戳来确定潜在的来源,从而检测跨语言的句子级别文本复用。
- 实验表明,该方法能够有效识别新闻文章中的文本复用情况,尤其是在文章中间和结尾部分,揭示了编辑复用的普遍性。
📝 摘要(中文)
本文研究了多语种新闻报道中句子级别的文本复用现象,并分析了复用内容在文章中的位置。我们提出了一种弱监督方法,用于检测句子级别的跨语言复用,无需完全翻译,旨在支持自动化预选,以减少记者信息过载。该研究比较了斯洛文尼亚通讯社(STA)的英语文章与来自15家外国通讯社(FA)的七种语言的报道,使用发布时间戳来保留每个复用句子的最早可能的外文来源。我们分析了来自两个时间窗口(2023年10月7日至11月2日;2025年2月1日至28日)的1,037篇STA文章和237,551篇FA文章,并在过滤到最早来源后识别出1,087个对齐的句子对。复用发生在52%的STA文章和1.6%的FA文章中,并且主要是非字面的,涉及释义和来自多个来源的组合复用。复用内容倾向于出现在英语文章的中间和结尾,而导语更常是原创的,这表明简单的词汇匹配忽略了大量的编辑复用。与先前专注于单语重叠的工作相比,我们(i)检测跨语言的复用,无需完全翻译,(ii)使用发布时间来识别可能的来源,以及(iii)分析复用材料在文章中的位置。数据集和代码:https://github.com/kunturs/lrec2026-rewrite-news。
🔬 方法详解
问题定义:该论文旨在解决多语言新闻报道中句子级别文本复用检测的问题。现有方法通常依赖于单语环境或需要完整的翻译,这在处理大规模、多语种的新闻数据时效率低下且成本高昂。此外,简单地进行词汇匹配无法有效识别释义和组合复用等非字面复用。
核心思路:该论文的核心思路是利用弱监督学习,结合发布时间戳信息,在不需要完整翻译的情况下,检测跨语言的句子级别文本复用。通过时间戳信息,可以推断出可能的来源,从而缩小搜索范围,提高检测效率。
技术框架:该方法主要包含以下几个阶段:1) 数据收集:收集来自不同新闻机构的多语种新闻文章,并记录发布时间戳。2) 句子对齐:使用弱监督方法,例如基于词嵌入的相似度计算,对齐不同语言的句子。3) 来源识别:利用发布时间戳,将每个复用句子与其最早可能的来源进行关联。4) 复用分析:分析复用内容在文章中的位置,以及复用的类型(字面复用、释义、组合复用等)。
关键创新:该论文的关键创新在于:1) 提出了一种无需完整翻译的跨语言文本复用检测方法,降低了计算成本。2) 利用发布时间戳信息,提高了来源识别的准确性。3) 分析了复用内容在文章中的位置,揭示了新闻编辑过程中的一些规律。
关键设计:该方法使用基于词嵌入的相似度计算进行句子对齐,具体实现细节未知。时间戳的使用是关键,用于过滤掉时间上不可能的来源。此外,论文还分析了复用类型,但具体分析方法未知。
🖼️ 关键图片
📊 实验亮点
该研究分析了1,037篇STA文章和237,551篇FA文章,识别出1,087个对齐的句子对。结果表明,52%的STA文章存在文本复用,而FA文章的复用比例为1.6%。研究还发现,复用内容主要出现在文章的中间和结尾部分,表明导语更倾向于原创。
🎯 应用场景
该研究成果可应用于新闻内容溯源、版权保护、虚假信息检测等领域。通过自动检测新闻报道中的文本复用情况,可以帮助记者和编辑识别潜在的抄袭或不当引用行为,提高新闻报道的质量和可信度。此外,该技术还可以用于分析不同新闻机构之间的信息传播模式,从而更好地理解新闻生态系统。
📄 摘要(原文)
This paper investigates sentence-level text reuse in multilingual journalism, analyzing where reused content occurs within articles. We present a weakly supervised method for detecting sentence-level cross-lingual reuse without requiring full translations, designed to support automated pre-selection to reduce information overload for journalists (Holyst et al., 2024). The study compares English-language articles from the Slovenian Press Agency (STA) with reports from 15 foreign agencies (FA) in seven languages, using publication timestamps to retain the earliest likely foreign source for each reused sentence. We analyze 1,037 STA and 237,551 FA articles from two time windows (October 7-November 2, 2023; February 1-28, 2025) and identify 1,087 aligned sentence pairs after filtering to the earliest sources. Reuse occurs in 52% of STA articles and 1.6% of FA articles and is predominantly non-literal, involving paraphrase and compositional reuse from multiple sources. Reused content tends to appear in the middle and end of English articles, while leads are more often original, indicating that simple lexical matching overlooks substantial editorial reuse. Compared with prior work focused on monolingual overlap, we (i) detect reuse across languages without requiring full translation, (ii) use publication timing to identify likely sources, and (iii) analyze where reused material is situated within articles. Dataset and code: https://github.com/kunturs/lrec2026-rewrite-news.