Thanos: Enhancing Conversational Agents with Skill-of-Mind-Infused Large Language Model

📄 arXiv: 2411.04496v1 📥 PDF

作者: Young-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Ho-Jin Choi

分类: cs.CL

发布日期: 2024-11-07

备注: Code: https://github.com/passing2961/Thanos


💡 一句话要点

Thanos:通过注入心智技能的大语言模型增强对话智能体

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话智能体 大型语言模型 心智技能 社交对话 人机交互

📋 核心要点

  1. 现有对话智能体难以像人类一样,根据社交情境选择合适的对话技能,导致社交互动能力不足。
  2. 论文提出一种名为Thanos的心智技能注入LLM,通过学习人类对话中的心智技能,提升对话智能体的社交能力。
  3. 实验表明,Thanos在各种领域表现出强大的泛化能力,显著提升了对话质量,并促进了亲社会行为。

📝 摘要(中文)

为了增强与对话者的社交联系,人类自然地获得了一种能力,即通过考虑哪种对话技能最适合回应,从而在给定的情境中做出适当的回应——我们将这一过程称为心智技能。对于基于大型语言模型(LLM)的对话智能体来说,像人类一样规划适当的对话技能具有挑战性,因为社交对话的复杂性,尤其是在交互式场景中。为了解决这个问题,我们提出了一个心智技能标注的对话数据集,名为多面心智技能,其中包括跨各种交互式场景(例如,长期、咨询、面向任务)的多轮和多面对话技能,这些技能基于不同的社会背景(例如,人口统计、角色、经验法则)。该数据集包含大约10万个对话。利用这个数据集,我们引入了一个新的心智技能注入的LLM系列,名为Thanos,模型大小分别为1B、3B和8B参数。通过大量的实验,这些模型成功地展示了心智技能过程,并在推断各种领域的多面技能方面表现出强大的泛化能力。此外,我们表明Thanos显著提高了基于LLM的对话智能体生成的响应质量,并在人类评估中促进了亲社会行为。

🔬 方法详解

问题定义:现有基于LLM的对话智能体在复杂社交对话场景中,难以像人类一样根据情境选择合适的对话技能(心智技能),导致生成的回复缺乏针对性和社交性,影响用户体验。现有方法缺乏对心智技能的建模和利用,难以应对多变的社交环境。

核心思路:论文的核心思路是通过构建一个大规模的心智技能标注数据集,并在此基础上训练LLM,使模型能够学习和理解人类对话中的心智技能,从而在生成回复时能够考虑到社交情境,选择合适的对话策略。通过模仿人类的“心智技能”过程,提升对话智能体的社交能力。

技术框架:Thanos的技术框架主要包含两个部分:一是多面心智技能数据集的构建,该数据集包含各种交互式场景下的多轮对话,并标注了对话中蕴含的心智技能;二是基于该数据集训练的心智技能注入LLM(Thanos),模型结构基于Transformer,通过学习数据集中的对话和心智技能标注,提升模型的心智技能推理能力。

关键创新:论文的关键创新在于提出了“心智技能”的概念,并将其应用于对话智能体的设计中。通过构建大规模的心智技能标注数据集,并训练LLM学习这些技能,使得对话智能体能够更好地理解和模拟人类的社交行为。与现有方法相比,Thanos能够更好地应对复杂的社交情境,生成更具针对性和社交性的回复。

关键设计:数据集构建方面,论文设计了多样的交互场景和社会背景,并对对话中的心智技能进行了细致的标注。模型训练方面,采用了标准的Transformer结构,并针对心智技能推理任务进行了优化。具体的参数设置、损失函数和网络结构等技术细节在论文中有详细描述(未知)。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,Thanos在各种领域表现出强大的泛化能力,能够成功推断多面技能。与基线模型相比,Thanos显著提高了对话质量,并在人类评估中表现出更强的亲社会行为。具体性能数据和提升幅度在论文中有详细描述(未知)。

🎯 应用场景

Thanos具有广泛的应用前景,可用于开发更具社交性和同理心的对话机器人,例如心理咨询机器人、客服机器人、社交陪伴机器人等。该研究有助于提升人机交互的自然性和流畅性,促进人与机器之间的情感连接,并为构建更智能、更人性化的AI系统奠定基础。

📄 摘要(原文)

To increase social bonding with interlocutors, humans naturally acquire the ability to respond appropriately in a given situation by considering which conversational skill is most suitable for the response - a process we call skill-of-mind. For large language model (LLM)-based conversational agents, planning appropriate conversational skills, as humans do, is challenging due to the complexity of social dialogue, especially in interactive scenarios. To address this, we propose a skill-of-mind-annotated conversation dataset, named Multifaceted Skill-of-Mind, which includes multi-turn and multifaceted conversational skills across various interactive scenarios (e.g., long-term, counseling, task-oriented), grounded in diverse social contexts (e.g., demographics, persona, rules of thumb). This dataset consists of roughly 100K conversations. Using this dataset, we introduce a new family of skill-of-mind-infused LLMs, named Thanos, with model sizes of 1B, 3B, and 8B parameters. With extensive experiments, these models successfully demonstrate the skill-of-mind process and exhibit strong generalizability in inferring multifaceted skills across a variety of domains. Moreover, we show that Thanos significantly enhances the quality of responses generated by LLM-based conversational agents and promotes prosocial behavior in human evaluations.