Fully Bayesian Approaches to Topics over Time
作者: Julián Cendrero, Julio Gonzalo, Ivar Zapata
分类: cs.CL, cs.LG
发布日期: 2025-04-21
备注: 25 pages
💡 一句话要点
提出全贝叶斯时间主题模型(WBToT),提升主题随时间变化的建模稳定性和事件捕获能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时间主题模型 贝叶斯推断 主题演化 文本挖掘 在线学习
📋 核心要点
- 现有时间主题模型(ToT)在建模主题随时间变化时,由于非全贝叶斯方法,容易出现稳定性问题。
- 论文提出全贝叶斯时间主题模型(BToT)和加权贝叶斯时间主题模型(WBToT),通过引入共轭先验和加权时间信息来提升模型稳定性。
- 实验表明,WBToT在事件捕获和主题连贯性方面优于LDA和BERTopic等模型,且在线优化算法更稳定。
📝 摘要(中文)
时间主题模型(ToT)通过显式地对发布日期和词语共现模式进行联合建模,来捕捉时间戳数据集中的主题变化。然而,ToT并非以完全贝叶斯的方式进行处理,这导致其容易出现稳定性问题。为了解决这个问题,我们提出了一种全贝叶斯时间主题模型(BToT),通过引入Beta分布的共轭先验来实现。该先验起到正则化的作用,防止算法的在线版本在小批量数据中主题表示不佳时出现不稳定的更新。本文首次研究了Beta分布的先验特性。尽管如此,该模型仍然存在单时间观测与每个文档中词语多样性之间的尺度差异问题。因此,我们提出了一种BToT的变体,即加权贝叶斯时间主题模型(WBToT)作为解决方案。在WBToT中,每个文档的发布日期被重复多次,从而平衡了推理过程中词语和时间戳的相对影响。我们在两个数据集上测试了我们的模型:一个包含200多年美国国情咨文(SOTU)地址的集合和一个包含1000万条推文的大规模COVID-19 Twitter语料库。结果表明,WBToT比潜在狄利克雷分配(LDA)和其他SOTA主题模型(如BERTopic)更好地捕捉事件:主题随时间变化的绝对偏差中位数分别降低了51%和34%。我们的实验还证明了WBToT优于BToT的连贯性,这突出了平衡时间和词语模态的重要性。最后,我们展示了WBToT中在线优化算法的稳定性,这使得WBToT能够应用于标准ToT难以处理的问题。
🔬 方法详解
问题定义:时间主题模型(ToT)旨在捕捉文档集合中主题随时间的变化。然而,传统的ToT模型并非完全贝叶斯,这导致在在线学习过程中,当小批量数据中某个主题的表示不足时,模型更新可能不稳定,从而影响主题建模的准确性。此外,文档中词语的数量远大于时间戳的数量,导致两者在模型中的影响不平衡。
核心思路:论文的核心思路是通过引入全贝叶斯方法来增强ToT模型的稳定性,并平衡时间信息和词语信息的影响。具体来说,通过为Beta分布引入共轭先验,实现正则化,防止模型在数据稀疏时发生剧烈变化。同时,通过重复文档的时间戳,增加时间信息在模型中的权重,从而平衡词语信息的影响。
技术框架:WBToT模型建立在ToT模型的基础上,主要包含以下几个阶段: 1. 数据预处理:对文档进行分词、去除停用词等处理。 2. 时间戳加权:对每个文档的时间戳进行重复,增加其在模型中的权重。 3. 全贝叶斯推断:使用变分推断或吉布斯采样等方法,对模型参数进行推断,包括主题-词语分布、文档-主题分布以及主题随时间的变化。 4. 主题演化分析:根据推断出的主题分布,分析主题随时间的变化趋势。
关键创新:论文的关键创新在于: 1. 全贝叶斯建模:将ToT模型扩展为全贝叶斯模型,通过引入Beta分布的共轭先验,增强了模型的稳定性。 2. 时间戳加权:提出了时间戳加权策略,平衡了时间信息和词语信息在模型中的影响,提高了主题建模的准确性。 3. 在线优化稳定性:WBToT模型展示了更强的在线优化稳定性,使其能够应用于更大规模的数据集。
关键设计: 1. Beta分布的共轭先验:选择合适的共轭先验,以实现有效的正则化,防止模型过拟合。 2. 时间戳重复次数:根据数据集的特点,选择合适的时间戳重复次数,以平衡时间信息和词语信息的影响。 3. 在线学习算法:采用合适的在线学习算法,如随机梯度下降或Adam,以实现高效的模型训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,WBToT模型在两个数据集上均取得了显著的性能提升。在美国国情咨文数据集上,WBToT比LDA和BERTopic在主题随时间变化的绝对偏差中位数上分别降低了51%和34%。此外,WBToT在COVID-19 Twitter语料库上表现出更强的连贯性,验证了平衡时间和词语模态的重要性。WBToT的在线优化算法也表现出更强的稳定性。
🎯 应用场景
该研究成果可应用于多种领域,例如:社交媒体分析,可以用于追踪话题随时间演变;新闻分析,可以用于分析新闻事件的发展脉络;科技趋势分析,可以用于预测未来科技发展方向;医学研究,可以用于分析疾病传播趋势。通过对时间序列数据的深入挖掘,可以为决策提供有力支持。
📄 摘要(原文)
The Topics over Time (ToT) model captures thematic changes in timestamped datasets by explicitly modeling publication dates jointly with word co-occurrence patterns. However, ToT was not approached in a fully Bayesian fashion, a flaw that makes it susceptible to stability problems. To address this issue, we propose a fully Bayesian Topics over Time (BToT) model via the introduction of a conjugate prior to the Beta distribution. This prior acts as a regularization that prevents the online version of the algorithm from unstable updates when a topic is poorly represented in a mini-batch. The characteristics of this prior to the Beta distribution are studied here for the first time. Still, this model suffers from a difference in scale between the single-time observations and the multiplicity of words per document. A variation of BToT, Weighted Bayesian Topics over Time (WBToT), is proposed as a solution. In WBToT, publication dates are repeated a certain number of times per document, which balances the relative influence of words and timestamps along the inference process. We have tested our models on two datasets: a collection of over 200 years of US state-of-the-union (SOTU) addresses and a large-scale COVID-19 Twitter corpus of 10 million tweets. The results show that WBToT captures events better than Latent Dirichlet Allocation and other SOTA topic models like BERTopic: the median absolute deviation of the topic presence over time is reduced by $51\%$ and $34\%$, respectively. Our experiments also demonstrate the superior coherence of WBToT over BToT, which highlights the importance of balancing the time and word modalities. Finally, we illustrate the stability of the online optimization algorithm in WBToT, which allows the application of WBToT to problems that are intractable for standard ToT.