Thanos: Enhancing Conversational Agents with Skill-of-Mind-Infused Large Language Model

作者: Young-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Ho-Jin Choi

分类: cs.CL

发布日期: 2024-11-07

备注: Code: https://github.com/passing2961/Thanos

💡 一句话要点

Thanos：通过注入心智技能的大语言模型增强对话智能体

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 对话智能体 大型语言模型 心智技能 社交对话 人机交互

📋 核心要点

现有对话智能体难以像人类一样，根据社交情境选择合适的对话技能，导致社交互动能力不足。
论文提出一种名为Thanos的心智技能注入LLM，通过学习人类对话中的心智技能，提升对话智能体的社交能力。
实验表明，Thanos在各种领域表现出强大的泛化能力，显著提升了对话质量，并促进了亲社会行为。

📝 摘要（中文）

为了增强与对话者的社交联系，人类自然地获得了一种能力，即通过考虑哪种对话技能最适合回应，从而在给定的情境中做出适当的回应——我们将这一过程称为心智技能。对于基于大型语言模型（LLM）的对话智能体来说，像人类一样规划适当的对话技能具有挑战性，因为社交对话的复杂性，尤其是在交互式场景中。为了解决这个问题，我们提出了一个心智技能标注的对话数据集，名为多面心智技能，其中包括跨各种交互式场景（例如，长期、咨询、面向任务）的多轮和多面对话技能，这些技能基于不同的社会背景（例如，人口统计、角色、经验法则）。该数据集包含大约10万个对话。利用这个数据集，我们引入了一个新的心智技能注入的LLM系列，名为Thanos，模型大小分别为1B、3B和8B参数。通过大量的实验，这些模型成功地展示了心智技能过程，并在推断各种领域的多面技能方面表现出强大的泛化能力。此外，我们表明Thanos显著提高了基于LLM的对话智能体生成的响应质量，并在人类评估中促进了亲社会行为。

🔬 方法详解

问题定义：现有基于LLM的对话智能体在复杂社交对话场景中，难以像人类一样根据情境选择合适的对话技能（心智技能），导致生成的回复缺乏针对性和社交性，影响用户体验。现有方法缺乏对心智技能的建模和利用，难以应对多变的社交环境。

核心思路：论文的核心思路是通过构建一个大规模的心智技能标注数据集，并在此基础上训练LLM，使模型能够学习和理解人类对话中的心智技能，从而在生成回复时能够考虑到社交情境，选择合适的对话策略。通过模仿人类的“心智技能”过程，提升对话智能体的社交能力。

技术框架：Thanos的技术框架主要包含两个部分：一是多面心智技能数据集的构建，该数据集包含各种交互式场景下的多轮对话，并标注了对话中蕴含的心智技能；二是基于该数据集训练的心智技能注入LLM（Thanos），模型结构基于Transformer，通过学习数据集中的对话和心智技能标注，提升模型的心智技能推理能力。

关键创新：论文的关键创新在于提出了“心智技能”的概念，并将其应用于对话智能体的设计中。通过构建大规模的心智技能标注数据集，并训练LLM学习这些技能，使得对话智能体能够更好地理解和模拟人类的社交行为。与现有方法相比，Thanos能够更好地应对复杂的社交情境，生成更具针对性和社交性的回复。

关键设计：数据集构建方面，论文设计了多样的交互场景和社会背景，并对对话中的心智技能进行了细致的标注。模型训练方面，采用了标准的Transformer结构，并针对心智技能推理任务进行了优化。具体的参数设置、损失函数和网络结构等技术细节在论文中有详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Thanos在各种领域表现出强大的泛化能力，能够成功推断多面技能。与基线模型相比，Thanos显著提高了对话质量，并在人类评估中表现出更强的亲社会行为。具体性能数据和提升幅度在论文中有详细描述（未知）。

🎯 应用场景

Thanos具有广泛的应用前景，可用于开发更具社交性和同理心的对话机器人，例如心理咨询机器人、客服机器人、社交陪伴机器人等。该研究有助于提升人机交互的自然性和流畅性，促进人与机器之间的情感连接，并为构建更智能、更人性化的AI系统奠定基础。

📄 摘要（原文）

To increase social bonding with interlocutors, humans naturally acquire the ability to respond appropriately in a given situation by considering which conversational skill is most suitable for the response - a process we call skill-of-mind. For large language model (LLM)-based conversational agents, planning appropriate conversational skills, as humans do, is challenging due to the complexity of social dialogue, especially in interactive scenarios. To address this, we propose a skill-of-mind-annotated conversation dataset, named Multifaceted Skill-of-Mind, which includes multi-turn and multifaceted conversational skills across various interactive scenarios (e.g., long-term, counseling, task-oriented), grounded in diverse social contexts (e.g., demographics, persona, rules of thumb). This dataset consists of roughly 100K conversations. Using this dataset, we introduce a new family of skill-of-mind-infused LLMs, named Thanos, with model sizes of 1B, 3B, and 8B parameters. With extensive experiments, these models successfully demonstrate the skill-of-mind process and exhibit strong generalizability in inferring multifaceted skills across a variety of domains. Moreover, we show that Thanos significantly enhances the quality of responses generated by LLM-based conversational agents and promotes prosocial behavior in human evaluations.

Thanos: Enhancing Conversational Agents with Skill-of-Mind-Infused Large Language Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理