SEADialogues: A Multilingual Culturally Grounded Multi-turn Dialogue Dataset on Southeast Asian Languages

📄 arXiv: 2508.07069v1 📥 PDF

作者: Muhammad Dehan Al Kautsar, Aswin Candra, Muhammad Alif Al Hakim, Maxalmina Satria Kahfi, Fajri Koto, Alham Fikri Aji, Peerat Limkonchotiwat, Ekapol Chuangsuwanich, Genta Indra Winata

分类: cs.CL, cs.AI

发布日期: 2025-08-09

备注: Preprint


💡 一句话要点

提出SEADialogues数据集以解决对话系统中文化细节的忽视问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话系统 文化敏感 多语言 数据集 东南亚 个性化 自然语言处理

📋 核心要点

  1. 现有对话数据集普遍缺乏对文化细节的关注,导致对话系统在实际应用中难以理解和适应用户的文化背景。
  2. SEADialogues数据集通过引入文化属性和日常生活主题,增强了对话的文化相关性和个性化,填补了这一空白。
  3. 该数据集的发布将促进对文化意识和人性化对话代理的研究,推动相关技术的发展。

📝 摘要(中文)

尽管已有众多数据集支持对话系统,但大多数现有的闲聊数据集忽视了自然人类对话中的文化细微差别。为了解决这一问题,我们推出了SEADialogues,这是一个以东南亚为中心的文化基础对话数据集,涵盖了来自六个东南亚国家的八种语言,服务于超过7亿人口。该数据集中的每个对话都包含个性化属性和两个反映各自社区日常生活的文化主题,旨在推动对文化敏感和以人为本的大型语言模型的研究。

🔬 方法详解

问题定义:本论文旨在解决现有对话系统数据集中对文化细节的忽视,导致系统在多样化用户环境中的适应性不足。

核心思路:通过构建一个多语言、多文化的对话数据集,SEADialogues引入了个性化属性和文化主题,以增强对话的文化相关性和用户体验。

技术框架:数据集包含来自六个东南亚国家的八种语言的多轮对话,每个对话都配有个性化信息和文化主题,整体结构旨在反映真实的社交互动。

关键创新:SEADialogues的创新在于其文化基础的设计,强调了文化背景在对话生成中的重要性,与传统数据集相比,提供了更丰富的上下文信息。

关键设计:数据集中包含的个性化属性和文化主题经过精心设计,以确保其在不同文化背景下的适用性和真实性,具体参数和主题选择基于对东南亚文化的深入研究。

📊 实验亮点

SEADialogues数据集的发布为对话系统的研究提供了新的方向,尤其是在文化意识方面。通过引入个性化和文化主题,该数据集显著提升了对话的相关性和自然性,预计将推动相关领域的研究进展。

🎯 应用场景

该研究的潜在应用领域包括多语言对话系统、智能客服、社交机器人等,能够帮助这些系统更好地理解和适应用户的文化背景,从而提升用户体验和满意度。未来,该数据集还可能推动更多文化敏感的AI应用的发展。

📄 摘要(原文)

Although numerous datasets have been developed to support dialogue systems, most existing chit-chat datasets overlook the cultural nuances inherent in natural human conversations. To address this gap, we introduce SEADialogues, a culturally grounded dialogue dataset centered on Southeast Asia, a region with over 700 million people and immense cultural diversity. Our dataset features dialogues in eight languages from six Southeast Asian countries, many of which are low-resource despite having sizable speaker populations. To enhance cultural relevance and personalization, each dialogue includes persona attributes and two culturally grounded topics that reflect everyday life in the respective communities. Furthermore, we release a multi-turn dialogue dataset to advance research on culturally aware and human-centric large language models, including conversational dialogue agents.