SOTOPIA-$Ω$: Dynamic Strategy Injection Learning and Social Instruction Following Evaluation for Social Agents

作者: Wenyuan Zhang, Tianyun Liu, Mengxiao Song, Xiaodong Li, Tingwen Liu

分类: cs.CL, cs.CY, cs.HC

发布日期: 2025-02-21 (更新: 2025-05-29)

备注: Accepted by ACL 2025 (Main Conference)

💡 一句话要点

SOTOPIA-$Ω$：动态策略注入学习与社交指令跟随评估，提升社交智能体能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 社交智能体 策略注入 社交指令跟随 对话生成 谈判理论 动态学习 语言模型

📋 核心要点

现有研究缺乏将人类丰富的社交策略迁移和整合到社交智能体中的有效方法。
SOTOPIA-$Ω$框架通过动态注入多步推理和直接策略，自动构建高质量的社交对话训练语料库。
实验表明，基于该框架训练的7B模型在社交目标和社交指令跟随方面均超越了GPT-4。

📝 摘要（中文）

本文提出SOTOPIA-$Ω$框架，旨在弥合人类社交策略向社交智能体迁移和整合的差距，着重提升语言智能体的社交能力。该框架将受谈判理论启发的的多步推理策略和两种简单的直接策略动态注入到专家智能体中，从而自动构建高质量的社交对话训练语料库。此外，本文引入了社交指令跟随（S-IF）的概念，并提出了两个新的S-IF评估指标，以补充社交能力评估。实验表明，在高质量语料库上训练的多个7B模型不仅在实现社交目标方面显著超越了专家智能体（GPT-4），而且还提高了S-IF性能。分析和变体实验验证了动态构建的优势，尤其是在打破智能体的长期僵局方面。

🔬 方法详解

问题定义：现有社交智能体缺乏有效学习和利用人类社交策略的能力，导致其在复杂社交场景中表现不佳。构建高质量的社交对话训练数据成本高昂，且难以覆盖各种社交策略和情境。此外，缺乏针对社交智能体的全面评估指标，难以准确衡量其社交能力。

核心思路：通过动态地将不同的社交策略注入到专家智能体中，模拟各种社交互动场景，从而自动生成高质量的训练数据。引入社交指令跟随（S-IF）的概念，并设计相应的评估指标，以更全面地评估社交智能体的能力。这种动态注入策略能够打破智能体在对话中的僵局，提升对话的多样性和质量。

技术框架：SOTOPIA-$Ω$框架包含以下几个主要模块：1) 策略注入模块：将谈判理论启发的多步推理策略和直接策略动态注入到专家智能体中。2) 对话生成模块：利用注入策略的专家智能体进行对话生成，构建训练语料库。3) 模型训练模块：使用生成的语料库训练语言模型。4) 评估模块：使用社交目标达成率和S-IF指标评估模型的社交能力。

关键创新：动态策略注入是本研究的关键创新点。与静态地使用单一策略相比，动态注入能够模拟更丰富的社交互动场景，生成更多样化的训练数据，从而提升模型的泛化能力和鲁棒性。此外，S-IF概念的提出和相应评估指标的设计，为社交智能体的评估提供了新的视角。

关键设计：策略注入模块中，谈判理论启发的多步推理策略包括提议、反驳、妥协等步骤，模拟了真实的谈判过程。直接策略包括直接接受和直接拒绝，用于简化对话流程。S-IF评估指标包括指令完成度和社交礼仪度，分别衡量模型完成指令的能力和遵守社交规范的能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在SOTOPIA-$Ω$框架下训练的7B模型在社交目标达成率方面显著超越了GPT-4，提升幅度超过10%。同时，在S-IF评估指标上也取得了显著提升，表明模型不仅能够更好地完成指令，而且能够更好地遵守社交规范。变体实验验证了动态策略注入的有效性，尤其是在打破对话僵局方面。

🎯 应用场景

该研究成果可应用于智能客服、虚拟助手、社交机器人等领域，提升其在复杂社交场景中的表现。通过学习人类社交策略，智能体能够更好地理解用户意图，进行有效的沟通和协作，从而提供更优质的服务。未来，该研究可进一步扩展到更广泛的社交场景和任务中，例如人机协作、群体决策等。

📄 摘要（原文）

Despite the abundance of prior social strategies possessed by humans, there remains a paucity of research dedicated to their transfer and integration into social agents. Our proposed SOTOPIA-$Ω$ framework aims to address and bridge this gap, with a particular focus on enhancing the social capabilities of language agents. This framework dynamically injects multi-step reasoning strategies inspired by negotiation theory and two simple direct strategies into expert agents, thereby automating the construction of a high-quality social dialogue training corpus. Additionally, we introduce the concept of Social Instruction Following (S-IF) and propose two new S-IF evaluation metrics that complement social capability. We demonstrate that several 7B models trained on high-quality corpus not only significantly surpass the expert agent (GPT-4) in achieving social goals but also enhance S-IF performance. Analysis and variant experiments validate the advantages of dynamic construction, which can especially break the agent's prolonged deadlock.

SOTOPIA-$Ω$: Dynamic Strategy Injection Learning and Social Instruction Following Evaluation for Social Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理