AgenticAI-DialogGen: Topic-Guided Conversation Generation for Fine-Tuning and Evaluating Short- and Long-Term Memories of LLMs

📄 arXiv: 2604.12179v1 📥 PDF

作者: Manoj Madushanka Perera, Adnan Mahmood, Kasun Eranda Wijethilake, Quan Z. Sheng

分类: cs.CL, cs.IR

发布日期: 2026-04-14

备注: 13 pages, 5 figures, 5 tables


💡 一句话要点

AgenticAI-DialogGen:用于微调和评估LLM记忆的Topic引导对话生成框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话生成 大型语言模型 长期记忆 知识图谱 主题引导 无监督学习 智能代理

📋 核心要点

  1. 现有对话数据集缺乏记忆基础,忽略主题连续性,或依赖昂贵的人工标注,难以有效评估LLM的长期记忆能力。
  2. AgenticAI-DialogGen利用LLM代理自动构建知识图谱、识别主题、生成角色,从而模拟高质量的主题引导对话。
  3. 实验表明,AgenticAI-DialogGen生成的对话质量更高,且在TGC数据集上微调的LLM在记忆相关的QA任务中表现更佳。

📝 摘要(中文)

大型语言模型(LLM)在处理扩展对话上下文方面的能力不断提高,但由于缺乏同时编码短期和长期对话历史的数据集,微调和评估其短期和长期记忆仍然很困难。现有的对话数据集缺乏记忆基础,忽略了主题连续性,或者依赖于昂贵的人工标注。为了解决这些差距,我们引入了AgenticAI-DialogGen,这是一个基于模块化代理的框架,可以在没有人为监督的情况下生成基于角色和主题引导的对话。该框架使用LLM代理来提取知识图谱,识别主题,构建说话者角色,并从非结构化对话中模拟主题引导的对话。一个QA模块生成从短期和长期对话历史中提取的基于记忆的问题答案(QA)对。我们还生成了一个名为TopicGuidedChat(TGC)的新数据集,其中长期记忆被编码为特定于说话者的知识图谱,短期记忆被编码为新生成的主题引导的对话。评估表明,AgenticAI-DialogGen产生更高的对话质量,并且在TGC数据集上微调的LLM在基于记忆的QA任务上实现了更高的性能。

🔬 方法详解

问题定义:现有对话数据集在评估LLM的短期和长期记忆方面存在不足。它们要么缺乏明确的记忆 grounding,要么忽略了对话主题的连贯性,或者需要大量的人工标注,成本高昂。因此,如何构建一个能够有效评估LLM记忆能力,同时又避免人工标注的数据集是一个关键问题。

核心思路:论文的核心思路是利用LLM本身的能力,构建一个基于代理(Agent)的框架,自动生成高质量的、主题引导的对话数据。通过让LLM扮演不同的角色,并根据预先设定的主题进行对话,可以有效地模拟真实场景下的对话过程,并生成包含丰富记忆信息的数据集。

技术框架:AgenticAI-DialogGen框架主要包含以下几个模块:1) 知识图谱提取模块:从非结构化文本中提取知识图谱,用于构建说话者的长期记忆。2) 主题识别模块:识别对话中的主题,确保对话的连贯性。3) 角色构建模块:为每个说话者构建独特的角色,增加对话的多样性。4) 对话生成模块:根据知识图谱、主题和角色,生成主题引导的对话。5) QA模块:从生成的对话中提取问题答案对,用于评估LLM的记忆能力。

关键创新:该论文的关键创新在于提出了一种完全自动化的对话生成框架,无需人工标注即可生成高质量的、主题引导的对话数据。这种方法不仅降低了数据集的构建成本,而且可以灵活地控制对话的主题和角色,从而更好地评估LLM的记忆能力。

关键设计:在知识图谱提取模块中,使用了LLM进行实体识别和关系抽取。在对话生成模块中,使用了基于Transformer的语言模型,并引入了主题和角色信息作为条件。在QA模块中,设计了一种基于规则的方法,从对话中提取问题答案对。具体参数设置和损失函数等细节未在摘要中详细说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AgenticAI-DialogGen生成的TopicGuidedChat (TGC)数据集,在记忆相关的QA任务上,使得微调后的LLM性能得到显著提升。具体提升幅度未在摘要中给出,但强调了该框架在提高对话质量和LLM记忆能力方面的有效性。

🎯 应用场景

AgenticAI-DialogGen可用于生成高质量的对话数据集,从而提升LLM在对话系统、智能客服、虚拟助手等领域的性能。该框架能够有效评估和提升LLM的长期记忆能力,使其在需要长期上下文理解的任务中表现更佳。此外,该方法无需人工标注,降低了数据获取成本,具有广泛的应用前景。

📄 摘要(原文)

Recent advancements in Large Language Models (LLMs) have improved their ability to process extended conversational contexts, yet fine-tuning and evaluating short- and long-term memories remain difficult due to the absence of datasets that encode both short- and long-term conversational history. Existing conversational datasets lack memory grounding, overlook topic continuity, or rely on costly human annotation. To address these gaps, we introduce AgenticAI-DialogGen, a modular agent-based framework that generates persona-grounded and topic-guided conversations without human supervision. The framework uses LLM agents to extract knowledge graphs, identify topics, build speaker personas, and simulate topic-guided conversations from unstructured conversations. A QA module generates memory-grounded Question Answer (QA) pairs drawn from short- and long-term conversational histories. We also generated a new dataset entitled, TopicGuidedChat (TGC), where long-term memory is encoded as speaker-specific knowledge graphs and short-term memory as newly generated topic-guided conversations. Evaluations depict that AgenticAI-DialogGen yields higher conversational quality and LLMs fine-tuned on TGC dataset achieve improved performance on memory-grounded QA tasks.