Question-Driven Analysis and Synthesis: Building Interpretable Thematic Trees with LLMs for Text Clustering and Controllable Generation

📄 arXiv: 2509.22211v2 📥 PDF

作者: Tiago Fernandes Tavares

分类: cs.CL, cs.AI

发布日期: 2025-09-26 (更新: 2025-10-11)


💡 一句话要点

提出递归主题划分(RTP),利用LLM构建可解释主题树,实现文本聚类和可控生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本聚类 主题模型 大型语言模型 可解释性 文本生成

📋 核心要点

  1. 传统主题模型在数据稀缺场景下表现不佳,且输出的关键词列表缺乏语义连贯性,难以解释。
  2. RTP利用LLM构建二叉树,每个节点是一个自然语言问题,通过问答驱动的方式实现语义划分。
  3. 实验证明RTP比传统方法更具可解释性,且生成的集群在下游分类任务中表现出强大的特征能力。

📝 摘要(中文)

本文提出了一种名为递归主题划分(RTP)的新框架,旨在解决文本语料库的无监督分析难题,尤其是在数据稀缺领域中传统主题模型表现不佳的问题。RTP利用大型语言模型(LLM)交互式地构建二叉树,树中的每个节点都是一个自然语言问题,用于对数据进行语义划分,从而形成一个完全可解释的分类体系,其中每个集群的逻辑都是显式的。实验表明,RTP的问答驱动层次结构比BERTopic等基线模型的关键词主题更具可解释性。此外,通过证明这些集群可以作为下游分类任务中的强大特征,尤其是在数据的基础主题与任务标签相关时,验证了这些集群的量化效用。RTP引入了一种新的数据探索范式,将重点从统计模式发现转移到知识驱动的主题分析。最后,证明了RTP树中的主题路径可以作为生成模型的结构化、可控提示,将分析框架转变为强大的合成工具,从而能够一致地模仿源语料库中发现的特定特征。

🔬 方法详解

问题定义:论文旨在解决文本聚类中主题模型可解释性差的问题,尤其是在数据稀疏的情况下,传统主题模型输出的关键词列表难以理解,缺乏语义连贯性,需要大量人工干预才能解释。现有方法难以提供清晰的聚类逻辑和可控的文本生成能力。

核心思路:论文的核心思路是利用大型语言模型(LLM)的语义理解和生成能力,通过递归地提出问题来划分文本数据,构建一个二叉树结构。每个节点的问题明确地定义了该节点所代表的主题,从而使得整个聚类过程和结果都具有高度的可解释性。这种问答驱动的方式能够更好地捕捉文本数据中的潜在主题,并提供更细粒度的控制能力。

技术框架:RTP框架主要包含以下几个阶段:1) 初始化:将整个文本语料库作为根节点。2) 问题生成:利用LLM为当前节点生成一个能够最好地划分数据的自然语言问题。3) 数据划分:根据LLM对每个文本回答问题的结果,将数据划分到左右子节点。4) 递归:对左右子节点重复步骤2和3,直到满足停止条件(例如,节点包含的文本数量小于阈值)。5) 主题提取:每个节点的问题和包含的文本共同定义了该节点的主题。

关键创新:RTP的关键创新在于其问答驱动的递归划分方式。与传统的基于统计的主题模型不同,RTP利用LLM的语义理解能力,通过自然语言问题来定义和划分主题,从而实现了高度的可解释性。此外,RTP还提供了一种可控的文本生成方式,可以通过指定RTP树中的路径来控制生成文本的主题和风格。

关键设计:RTP的关键设计包括:1) 问题生成策略:如何设计提示语(prompt)来引导LLM生成高质量的划分问题。2) 数据划分策略:如何利用LLM的回答结果来有效地划分数据。3) 停止条件:如何确定何时停止递归划分,以避免过度划分或欠划分。4) LLM的选择:选择合适的LLM以平衡性能和成本。论文中可能使用了特定的提示工程技巧来优化LLM的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RTP在可解释性方面优于BERTopic等基线模型。通过人工评估,RTP生成的问答驱动层次结构更易于理解和解释。此外,RTP生成的集群在下游分类任务中表现出强大的特征能力,尤其是在数据的基础主题与任务标签相关时,分类性能得到显著提升。具体的性能数据和提升幅度在论文中进行了详细的展示。

🎯 应用场景

RTP可应用于各种文本分析和生成场景,例如:客户反馈分析、新闻主题分类、科研文献聚类等。其可解释性强的特点使其在需要人工审核和干预的场景中具有优势。此外,RTP还可用于生成特定主题和风格的文本内容,例如:生成特定领域的营销文案、撰写特定风格的新闻报道等。RTP的未来发展方向包括:与其他自然语言处理技术的结合、应用于更复杂的数据类型、以及开发更智能的问题生成策略。

📄 摘要(原文)

Unsupervised analysis of text corpora is challenging, especially in data-scarce domains where traditional topic models struggle. While these models offer a solution, they typically describe clusters with lists of keywords that require significant manual effort to interpret and often lack semantic coherence. To address this critical interpretability gap, we introduce Recursive Thematic Partitioning (RTP), a novel framework that leverages Large Language Models (LLMs) to interactively build a binary tree. Each node in the tree is a natural language question that semantically partitions the data, resulting in a fully interpretable taxonomy where the logic of each cluster is explicit. Our experiments demonstrate that RTP's question-driven hierarchy is more interpretable than the keyword-based topics from a strong baseline like BERTopic. Furthermore, we establish the quantitative utility of these clusters by showing they serve as powerful features in downstream classification tasks, particularly when the data's underlying themes correlate with the task labels. RTP introduces a new paradigm for data exploration, shifting the focus from statistical pattern discovery to knowledge-driven thematic analysis. Furthermore, we demonstrate that the thematic paths from the RTP tree can serve as structured, controllable prompts for generative models. This transforms our analytical framework into a powerful tool for synthesis, enabling the consistent imitation of specific characteristics discovered in the source corpus.