Human-Centric Topic Modeling with Goal-Prompted Contrastive Learning and Optimal Transport
作者: Rui Wang, Yi Zheng, Dongxin Wang, Haiping Huang, Yuanzhi Yao, Yuxiang Zhou, Jialin Yu, Philip Torr
分类: cs.AI
发布日期: 2026-04-14
备注: 11 Pages, 6 Figures
💡 一句话要点
提出Human-TM,通过目标提示对比学习和最优传输实现以人为中心的Topic Modeling
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 主题建模 对比学习 最优传输 LLM 人机交互 目标导向 语义表示 文本挖掘
📋 核心要点
- 现有主题模型缺乏对用户意图的直接建模,导致生成的主题冗余且偏离目标。
- GCTM-OT利用LLM提取目标候选,并通过对比学习和最优传输将其融入主题发现过程。
- 实验表明,GCTM-OT在主题一致性、多样性和目标对齐方面均优于现有方法。
📝 摘要(中文)
现有的主题建模方法,从LDA到最新的神经和基于LLM的方法,主要关注统计一致性,通常会产生冗余或偏离目标的主题,从而忽略了用户的潜在意图。我们引入了以人为中心的主题建模(Human-TM),这是一种新颖的任务公式,它将人为提供的目标直接整合到主题建模过程中,以产生可解释、多样化和面向目标的主题。为了应对这一挑战,我们提出了具有最优传输的Goal-prompted对比主题模型(GCTM-OT),该模型首先使用基于LLM的提示从文档中提取目标候选,然后通过最优传输将这些目标候选整合到语义感知的对比学习中,以进行主题发现。在三个公共subreddit数据集上的实验结果表明,GCTM-OT在主题一致性和多样性方面优于最先进的基线,同时显着提高了与人为提供目标的对齐,为更以人为中心的主题发现系统铺平了道路。
🔬 方法详解
问题定义:现有主题建模方法,如LDA和基于LLM的方法,主要关注统计一致性,忽略了用户意图,导致生成的主题缺乏可解释性、多样性,并且容易偏离用户目标。因此,需要一种能够将用户目标直接融入主题建模过程的方法。
核心思路:论文的核心思路是将人为提供的目标信息融入到主题建模过程中,从而引导模型生成更符合用户意图的主题。具体来说,首先利用LLM从文档中提取目标候选,然后通过对比学习,使生成的主题与这些目标候选对齐。最优传输用于在对比学习过程中,更好地对齐语义空间,从而提升主题的质量。
技术框架:GCTM-OT的整体框架包括以下几个主要模块:1) 目标候选提取:使用LLM对文档进行提示,提取与文档相关的目标候选。2) 语义感知对比学习:构建对比学习框架,将文档和目标候选作为正样本对,将其他文档和目标候选作为负样本对,通过优化对比损失,使模型学习到文档和目标候选之间的语义关系。3) 最优传输:利用最优传输算法,对齐文档和目标候选的语义空间,从而更好地进行对比学习。4) 主题生成:基于学习到的文档和目标候选的表示,生成最终的主题。
关键创新:该论文的关键创新在于:1) 提出了Human-TM这一新颖的任务公式,将人为提供的目标直接整合到主题建模过程中。2) 提出了GCTM-OT模型,该模型利用LLM提取目标候选,并通过对比学习和最优传输将其融入主题发现过程。
关键设计:在目标候选提取阶段,使用了特定的LLM提示工程来提高目标候选的质量。在对比学习阶段,使用了InfoNCE损失函数来优化模型。在最优传输阶段,使用了Sinkhorn算法来计算最优传输矩阵。此外,还设计了一种语义感知的对比学习方法,以更好地对齐文档和目标候选的语义空间。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GCTM-OT在三个公共subreddit数据集上,在主题一致性和多样性方面均优于现有方法。更重要的是,GCTM-OT能够显著提高生成主题与人为提供目标的对齐程度,证明了其在Human-TM任务上的有效性。具体提升幅度未知,原文未提供具体数值。
🎯 应用场景
该研究成果可应用于多个领域,例如:个性化推荐系统(根据用户目标推荐相关主题)、智能客服(理解用户意图并提供相关信息)、舆情分析(分析公众关注的焦点话题)等。通过将人为目标融入主题建模,可以提升系统的智能化水平和用户体验,具有重要的实际价值和广阔的应用前景。
📄 摘要(原文)
Existing topic modeling methods, from LDA to recent neural and LLM-based approaches, which focus mainly on statistical coherence, often produce redundant or off-target topics that miss the user's underlying intent. We introduce Human-centric Topic Modeling, \emph{Human-TM}), a novel task formulation that integrates a human-provided goal directly into the topic modeling process to produce interpretable, diverse and goal-oriented topics. To tackle this challenge, we propose the \textbf{G}oal-prompted \textbf{C}ontrastive \textbf{T}opic \textbf{M}odel with \textbf{O}ptimal \textbf{T}ransport (GCTM-OT), which first uses LLM-based prompting to extract goal candidates from documents, then incorporates these into semantic-aware contrastive learning via optimal transport for topic discovery. Experimental results on three public subreddit datasets show that GCTM-OT outperforms state-of-the-art baselines in topic coherence and diversity while significantly improving alignment with human-provided goals, paving the way for more human-centric topic discovery systems.