AgenticAI-DialogGen: Topic-Guided Conversation Generation for Fine-Tuning and Evaluating Short- and Long-Term Memories of LLMs

作者: Manoj Madushanka Perera, Adnan Mahmood, Kasun Eranda Wijethilake, Quan Z. Sheng

分类: cs.CL, cs.IR

发布日期: 2026-04-14

备注: 13 pages, 5 figures, 5 tables

💡 一句话要点

AgenticAI-DialogGen：用于微调和评估LLM记忆的Topic引导对话生成框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 对话生成 大型语言模型 长期记忆 知识图谱 主题引导 无监督学习 智能代理

📋 核心要点

现有对话数据集缺乏记忆基础，忽略主题连续性，或依赖昂贵的人工标注，难以有效评估LLM的长期记忆能力。
AgenticAI-DialogGen利用LLM代理自动构建知识图谱、识别主题、生成角色，从而模拟高质量的主题引导对话。
实验表明，AgenticAI-DialogGen生成的对话质量更高，且在TGC数据集上微调的LLM在记忆相关的QA任务中表现更佳。

📝 摘要（中文）

大型语言模型（LLM）在处理扩展对话上下文方面的能力不断提高，但由于缺乏同时编码短期和长期对话历史的数据集，微调和评估其短期和长期记忆仍然很困难。现有的对话数据集缺乏记忆基础，忽略了主题连续性，或者依赖于昂贵的人工标注。为了解决这些差距，我们引入了AgenticAI-DialogGen，这是一个基于模块化代理的框架，可以在没有人为监督的情况下生成基于角色和主题引导的对话。该框架使用LLM代理来提取知识图谱，识别主题，构建说话者角色，并从非结构化对话中模拟主题引导的对话。一个QA模块生成从短期和长期对话历史中提取的基于记忆的问题答案（QA）对。我们还生成了一个名为TopicGuidedChat（TGC）的新数据集，其中长期记忆被编码为特定于说话者的知识图谱，短期记忆被编码为新生成的主题引导的对话。评估表明，AgenticAI-DialogGen产生更高的对话质量，并且在TGC数据集上微调的LLM在基于记忆的QA任务上实现了更高的性能。

🔬 方法详解

问题定义：现有对话数据集在评估LLM的短期和长期记忆方面存在不足。它们要么缺乏明确的记忆 grounding，要么忽略了对话主题的连贯性，或者需要大量的人工标注，成本高昂。因此，如何构建一个能够有效评估LLM记忆能力，同时又避免人工标注的数据集是一个关键问题。

核心思路：论文的核心思路是利用LLM本身的能力，构建一个基于代理（Agent）的框架，自动生成高质量的、主题引导的对话数据。通过让LLM扮演不同的角色，并根据预先设定的主题进行对话，可以有效地模拟真实场景下的对话过程，并生成包含丰富记忆信息的数据集。

技术框架：AgenticAI-DialogGen框架主要包含以下几个模块：1) 知识图谱提取模块：从非结构化文本中提取知识图谱，用于构建说话者的长期记忆。2) 主题识别模块：识别对话中的主题，确保对话的连贯性。3) 角色构建模块：为每个说话者构建独特的角色，增加对话的多样性。4) 对话生成模块：根据知识图谱、主题和角色，生成主题引导的对话。5) QA模块：从生成的对话中提取问题答案对，用于评估LLM的记忆能力。

关键创新：该论文的关键创新在于提出了一种完全自动化的对话生成框架，无需人工标注即可生成高质量的、主题引导的对话数据。这种方法不仅降低了数据集的构建成本，而且可以灵活地控制对话的主题和角色，从而更好地评估LLM的记忆能力。

关键设计：在知识图谱提取模块中，使用了LLM进行实体识别和关系抽取。在对话生成模块中，使用了基于Transformer的语言模型，并引入了主题和角色信息作为条件。在QA模块中，设计了一种基于规则的方法，从对话中提取问题答案对。具体参数设置和损失函数等细节未在摘要中详细说明。

🖼️ 关键图片

📊 实验亮点

AgenticAI-DialogGen生成的TopicGuidedChat (TGC)数据集，在记忆相关的QA任务上，使得微调后的LLM性能得到显著提升。具体提升幅度未在摘要中给出，但强调了该框架在提高对话质量和LLM记忆能力方面的有效性。

🎯 应用场景

AgenticAI-DialogGen可用于生成高质量的对话数据集，从而提升LLM在对话系统、智能客服、虚拟助手等领域的性能。该框架能够有效评估和提升LLM的长期记忆能力，使其在需要长期上下文理解的任务中表现更佳。此外，该方法无需人工标注，降低了数据获取成本，具有广泛的应用前景。

📄 摘要（原文）

Recent advancements in Large Language Models (LLMs) have improved their ability to process extended conversational contexts, yet fine-tuning and evaluating short- and long-term memories remain difficult due to the absence of datasets that encode both short- and long-term conversational history. Existing conversational datasets lack memory grounding, overlook topic continuity, or rely on costly human annotation. To address these gaps, we introduce AgenticAI-DialogGen, a modular agent-based framework that generates persona-grounded and topic-guided conversations without human supervision. The framework uses LLM agents to extract knowledge graphs, identify topics, build speaker personas, and simulate topic-guided conversations from unstructured conversations. A QA module generates memory-grounded Question Answer (QA) pairs drawn from short- and long-term conversational histories. We also generated a new dataset entitled, TopicGuidedChat (TGC), where long-term memory is encoded as speaker-specific knowledge graphs and short-term memory as newly generated topic-guided conversations. Evaluations depict that AgenticAI-DialogGen yields higher conversational quality and LLMs fine-tuned on TGC dataset achieve improved performance on memory-grounded QA tasks.

AgenticAI-DialogGen: Topic-Guided Conversation Generation for Fine-Tuning and Evaluating Short- and Long-Term Memories of LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理