Human-Centric Topic Modeling with Goal-Prompted Contrastive Learning and Optimal Transport

作者: Rui Wang, Yi Zheng, Dongxin Wang, Haiping Huang, Yuanzhi Yao, Yuxiang Zhou, Jialin Yu, Philip Torr

分类: cs.AI

发布日期: 2026-04-14

备注: 11 Pages, 6 Figures

💡 一句话要点

提出Human-TM，通过目标提示对比学习和最优传输实现以人为中心的Topic Modeling

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 主题建模 对比学习 最优传输 LLM 人机交互 目标导向 语义表示 文本挖掘

📋 核心要点

现有主题模型缺乏对用户意图的直接建模，导致生成的主题冗余且偏离目标。
GCTM-OT利用LLM提取目标候选，并通过对比学习和最优传输将其融入主题发现过程。
实验表明，GCTM-OT在主题一致性、多样性和目标对齐方面均优于现有方法。

📝 摘要（中文）

现有的主题建模方法，从LDA到最新的神经和基于LLM的方法，主要关注统计一致性，通常会产生冗余或偏离目标的主题，从而忽略了用户的潜在意图。我们引入了以人为中心的主题建模（Human-TM），这是一种新颖的任务公式，它将人为提供的目标直接整合到主题建模过程中，以产生可解释、多样化和面向目标的主题。为了应对这一挑战，我们提出了具有最优传输的Goal-prompted对比主题模型（GCTM-OT），该模型首先使用基于LLM的提示从文档中提取目标候选，然后通过最优传输将这些目标候选整合到语义感知的对比学习中，以进行主题发现。在三个公共subreddit数据集上的实验结果表明，GCTM-OT在主题一致性和多样性方面优于最先进的基线，同时显着提高了与人为提供目标的对齐，为更以人为中心的主题发现系统铺平了道路。

🔬 方法详解

问题定义：现有主题建模方法，如LDA和基于LLM的方法，主要关注统计一致性，忽略了用户意图，导致生成的主题缺乏可解释性、多样性，并且容易偏离用户目标。因此，需要一种能够将用户目标直接融入主题建模过程的方法。

核心思路：论文的核心思路是将人为提供的目标信息融入到主题建模过程中，从而引导模型生成更符合用户意图的主题。具体来说，首先利用LLM从文档中提取目标候选，然后通过对比学习，使生成的主题与这些目标候选对齐。最优传输用于在对比学习过程中，更好地对齐语义空间，从而提升主题的质量。

技术框架：GCTM-OT的整体框架包括以下几个主要模块：1) 目标候选提取：使用LLM对文档进行提示，提取与文档相关的目标候选。2) 语义感知对比学习：构建对比学习框架，将文档和目标候选作为正样本对，将其他文档和目标候选作为负样本对，通过优化对比损失，使模型学习到文档和目标候选之间的语义关系。3) 最优传输：利用最优传输算法，对齐文档和目标候选的语义空间，从而更好地进行对比学习。4) 主题生成：基于学习到的文档和目标候选的表示，生成最终的主题。

关键创新：该论文的关键创新在于：1) 提出了Human-TM这一新颖的任务公式，将人为提供的目标直接整合到主题建模过程中。2) 提出了GCTM-OT模型，该模型利用LLM提取目标候选，并通过对比学习和最优传输将其融入主题发现过程。

关键设计：在目标候选提取阶段，使用了特定的LLM提示工程来提高目标候选的质量。在对比学习阶段，使用了InfoNCE损失函数来优化模型。在最优传输阶段，使用了Sinkhorn算法来计算最优传输矩阵。此外，还设计了一种语义感知的对比学习方法，以更好地对齐文档和目标候选的语义空间。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GCTM-OT在三个公共subreddit数据集上，在主题一致性和多样性方面均优于现有方法。更重要的是，GCTM-OT能够显著提高生成主题与人为提供目标的对齐程度，证明了其在Human-TM任务上的有效性。具体提升幅度未知，原文未提供具体数值。

🎯 应用场景

该研究成果可应用于多个领域，例如：个性化推荐系统（根据用户目标推荐相关主题）、智能客服（理解用户意图并提供相关信息）、舆情分析（分析公众关注的焦点话题）等。通过将人为目标融入主题建模，可以提升系统的智能化水平和用户体验，具有重要的实际价值和广阔的应用前景。

📄 摘要（原文）

Existing topic modeling methods, from LDA to recent neural and LLM-based approaches, which focus mainly on statistical coherence, often produce redundant or off-target topics that miss the user's underlying intent. We introduce Human-centric Topic Modeling, \emph{Human-TM}), a novel task formulation that integrates a human-provided goal directly into the topic modeling process to produce interpretable, diverse and goal-oriented topics. To tackle this challenge, we propose the \textbf{G}oal-prompted \textbf{C}ontrastive \textbf{T}opic \textbf{M}odel with \textbf{O}ptimal \textbf{T}ransport (GCTM-OT), which first uses LLM-based prompting to extract goal candidates from documents, then incorporates these into semantic-aware contrastive learning via optimal transport for topic discovery. Experimental results on three public subreddit datasets show that GCTM-OT outperforms state-of-the-art baselines in topic coherence and diversity while significantly improving alignment with human-provided goals, paving the way for more human-centric topic discovery systems.

Human-Centric Topic Modeling with Goal-Prompted Contrastive Learning and Optimal Transport

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理