SMILE-Next: Teaching Large Language Models to Detect, Classify, and Reason about Laughter

作者: Lee Jung-Mok, Kim Sung-Bin, Joohyun Chang, Lee Hyun, Tae-Hyun Oh

分类: cs.CL, cs.AI

发布日期: 2026-05-27

期刊: Annual Meetings of the Association for Computational Linguistics 2026

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出SMILE-Next以解决真实场景中笑声理解问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 笑声理解 多模态学习 大型语言模型 社交信号 任务自适应 专家路由 情感计算

📋 核心要点

现有方法主要集中在孤立的笑声分析，缺乏对真实场景中笑声的全面理解，导致笑声的复杂社交信号未被充分挖掘。
论文提出了SMILE-Next数据集，并通过笑声特定的Self-Instruct和MoLE框架，提升了对笑声的检测、分类和推理能力。
实验结果显示，所提方法在多个任务上显著优于现有的多模态LLM基线，提升了任务特定的性能和效率。

📝 摘要（中文）

笑声是一种复杂的社会信号，传达的意图超越了单纯的娱乐。尽管之前的研究集中在孤立的笑声分析任务上，但对真实场景中笑声的全面理解仍然未得到充分探索。因此，我们引入了SMILE-Next数据集，旨在通过多模态文本表示和问题-答案注释，涵盖笑声检测、类型分类和推理三个任务。基于SMILE-Next，我们开发了一种专门针对笑声的大型语言模型，能够在真实场景中对笑声进行细致的理解。为此，我们提出了两个关键组件：笑声特定的Self-Instruct和混合笑声专家（MoLE）框架。实验结果表明，这些组件的结合显著超越了多模态LLM基线，推动了对真实场景中笑声的稳健理解。

🔬 方法详解

问题定义：本论文旨在解决对真实场景中笑声的理解问题，现有方法往往只关注孤立的笑声分析，无法捕捉笑声的多维社交信号。

核心思路：提出SMILE-Next数据集，结合笑声特定的Self-Instruct和MoLE框架，以增强模型在不同任务和领域的泛化能力。

技术框架：整体架构包括数据集构建、笑声特定的Self-Instruct生成和MoLE专家路由机制，动态选择适合每个任务的专家以提高性能。

关键创新：最重要的创新在于引入了任务自适应的专家路由机制MoLE，使得模型能够根据任务需求动态选择专家，从而提升了任务特定的性能和效率。

关键设计：在Self-Instruct中，自动合成多样化的笑声中心指令；MoLE框架通过动态路由选择专家，优化了模型的计算效率和性能。具体的参数设置和损失函数设计尚未详细披露。

🖼️ 关键图片

📊 实验亮点

实验结果表明，结合笑声特定的Self-Instruct和MoLE框架，模型在笑声检测、分类和推理任务上显著超越了多模态LLM基线，具体性能提升幅度达到XX%，展示了该方法在真实场景中理解笑声的有效性。

🎯 应用场景

该研究的潜在应用领域包括社交机器人、情感计算和人机交互等。通过对笑声的深入理解，能够提升机器在社交场景中的表现，增强人机沟通的自然性和有效性，未来可能对智能助手和社交媒体分析等领域产生深远影响。

📄 摘要（原文）

Laughter is a complex social signal that conveys communicative intent beyond amusement. While prior work has focused on isolated laughter analysis tasks, a comprehensive understanding of laughter in real-world scenarios remains underexplored. Therefore, we introduce SMILE-Next, a dataset for real-world laughter understanding with multimodal textual representations and question-answer annotations across three tasks: laughter detection, laughter type classification, and laughter reasoning. Building upon SMILE-Next, we aim to develop a laughter-specialized large language model capable of nuanced understanding of laughter in real-world contexts. To this end, we propose two key components: laughter-specific Self-Instruct and the Mixture-of-Laugh-Experts (MoLE) framework. Laughter-specific Self-Instruct enhances generalization across tasks and domains by automatically synthesizing diverse laughter-centric instructions. MoLE introduces a task-adaptive expert routing mechanism that dynamically selects specialized experts tailored to each laughter-related task, improving task-specific performance and efficiency. Experimental results show that the combination of our proposed components substantially outperforms multimodal LLM baselines, advancing robust real-world laughter understanding. Project page is at: https://mok0102.github.io/smile-next/.

SMILE-Next: Teaching Large Language Models to Detect, Classify, and Reason about Laughter

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理