Dynamic Topic Analysis in Academic Journals using Convex Non-negative Matrix Factorization Method

📄 arXiv: 2504.08743v1 📥 PDF

作者: Yang Yang, Tong Zhang, Jian Wu, Lijie Su

分类: cs.IR, cs.LG, eess.SY, math.OC, stat.AP

发布日期: 2025-03-23

备注: 11 pages, 7 figures, 6 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于凸优化的动态主题分析框架,提升学术期刊主题演化的理解与稳定性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动态主题分析 非负矩阵分解 凸优化 主题演化 学术期刊 文本挖掘 机器学习

📋 核心要点

  1. 现有动态主题分析方法在主题一致性、稀疏性和可解释性方面存在不足,难以准确捕捉主题演化。
  2. 提出一种两阶段框架,利用NMF提取年度主题,再通过凸NMF优化动态主题结构,提升主题的集成和稳定性。
  3. 实验表明,该方法在IEEE期刊摘要上有效识别新兴主题,并显著提升了主题排名的稳定性,最高达56.60%。

📝 摘要(中文)

随着大型语言模型的快速发展,学术主题识别和主题演化分析对于提升AI的理解能力至关重要。动态主题分析为捕获和理解大规模数据集中的主题时间演化提供了一种有效方法。本文提出了一种两阶段动态主题分析框架,该框架结合了凸优化来提高主题一致性、稀疏性和可解释性。在第一阶段,采用双层非负矩阵分解(NMF)模型来提取年度主题并识别关键术语。在第二阶段,凸优化算法使用凸NMF(cNMF)模型细化动态主题结构,进一步增强主题集成和稳定性。将该方法应用于2004年至2022年的IEEE期刊摘要,有效地识别和量化了新兴研究主题,如COVID-19和数字孪生。通过优化传统和新兴研究主题之间聚类特征空间中的稀疏性差异,该框架提供了对主题演化和排名分析的更深入见解。此外,NMF-cNMF模型在主题一致性方面表现出卓越的稳定性。在0.4、0.6和0.9的稀疏度水平下,所提出的方法将主题排名稳定性分别提高了24.51%、56.60%和36.93%。源代码(将在发布后公开)可在https://github.com/meetyangyang/CDNMF 获得。

🔬 方法详解

问题定义:论文旨在解决学术期刊中动态主题分析的问题,现有方法在主题一致性、稀疏性和可解释性方面存在不足,导致难以准确捕捉主题的演化过程,并且对新兴主题的识别能力有限。现有方法难以有效区分传统主题和新兴主题,导致主题演化分析的准确性降低。

核心思路:论文的核心思路是结合非负矩阵分解(NMF)和凸优化,通过两阶段的框架来提升主题分析的性能。首先使用NMF提取年度主题,然后利用凸NMF(cNMF)优化主题结构,从而提高主题的一致性、稀疏性和可解释性。通过凸优化,可以更好地约束主题的演化过程,使其更加稳定和易于理解。

技术框架:该框架包含两个主要阶段: 1. 年度主题提取(NMF):使用两层NMF模型,对每年的学术期刊摘要进行分解,提取年度主题和关键术语。 2. 动态主题优化(cNMF):利用凸优化算法,基于cNMF模型对提取的年度主题进行优化,细化动态主题结构,增强主题的集成和稳定性。

关键创新:该方法最重要的创新点在于引入了凸优化来约束动态主题分析过程。传统的NMF方法容易受到局部最优解的影响,导致主题不稳定和难以解释。通过使用凸NMF,可以保证解的全局最优性,从而提高主题的一致性和稳定性。此外,该方法还通过优化传统和新兴研究主题之间聚类特征空间的稀疏性差异,来更深入地理解主题演化。

关键设计: 1. 两层NMF模型:用于提取年度主题,第一层分解文档-词项矩阵,第二层分解主题-词项矩阵。 2. 凸NMF(cNMF):使用凸优化算法来约束主题演化,目标函数包含数据拟合项和正则化项,以提高主题的稀疏性和一致性。 3. 稀疏性差异优化:通过调整稀疏度参数,优化传统和新兴研究主题之间聚类特征空间的稀疏性差异,从而更好地识别新兴主题。 4. 主题排名稳定性评估:使用特定的指标来评估主题排名的稳定性,并通过实验验证所提出方法的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在IEEE期刊摘要数据集上取得了显著的性能提升。在稀疏度为0.4、0.6和0.9时,主题排名稳定性分别提高了24.51%、56.60%和36.93%。该方法能够有效识别新兴研究主题,如COVID-19和数字孪生,并提供对主题演化和排名分析的更深入见解。NMF-cNMF模型在主题一致性方面表现出卓越的稳定性。

🎯 应用场景

该研究成果可应用于学术趋势分析、科研情报挖掘、科技政策制定等领域。通过准确识别和跟踪学术主题的演化,可以帮助研究人员快速了解领域动态,为科研决策提供支持。此外,该方法还可用于分析专利文献、新闻报道等文本数据,挖掘潜在的技术发展方向和市场机会。

📄 摘要(原文)

With the rapid advancement of large language models, academic topic identification and topic evolution analysis are crucial for enhancing AI's understanding capabilities. Dynamic topic analysis provides a powerful approach to capturing and understanding the temporal evolution of topics in large-scale datasets. This paper presents a two-stage dynamic topic analysis framework that incorporates convex optimization to improve topic consistency, sparsity, and interpretability. In Stage 1, a two-layer non-negative matrix factorization (NMF) model is employed to extract annual topics and identify key terms. In Stage 2, a convex optimization algorithm refines the dynamic topic structure using the convex NMF (cNMF) model, further enhancing topic integration and stability. Applying the proposed method to IEEE journal abstracts from 2004 to 2022 effectively identifies and quantifies emerging research topics, such as COVID-19 and digital twins. By optimizing sparsity differences in the clustering feature space between traditional and emerging research topics, the framework provides deeper insights into topic evolution and ranking analysis. Moreover, the NMF-cNMF model demonstrates superior stability in topic consistency. At sparsity levels of 0.4, 0.6, and 0.9, the proposed approach improves topic ranking stability by 24.51%, 56.60%, and 36.93%, respectively. The source code (to be open after publication) is available at https://github.com/meetyangyang/CDNMF.