SMILE-Next: Teaching Large Language Models to Detect, Classify, and Reason about Laughter

📄 arXiv: 2605.28084v1 📥 PDF

作者: Lee Jung-Mok, Kim Sung-Bin, Joohyun Chang, Lee Hyun, Tae-Hyun Oh

分类: cs.CL, cs.AI

发布日期: 2026-05-27

期刊: Annual Meetings of the Association for Computational Linguistics 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出SMILE-Next以解决真实场景中笑声理解问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 笑声理解 多模态学习 大型语言模型 社交信号 任务自适应 专家路由 情感计算

📋 核心要点

  1. 现有方法主要集中在孤立的笑声分析,缺乏对真实场景中笑声的全面理解,导致笑声的复杂社交信号未被充分挖掘。
  2. 论文提出了SMILE-Next数据集,并通过笑声特定的Self-Instruct和MoLE框架,提升了对笑声的检测、分类和推理能力。
  3. 实验结果显示,所提方法在多个任务上显著优于现有的多模态LLM基线,提升了任务特定的性能和效率。

📝 摘要(中文)

笑声是一种复杂的社会信号,传达的意图超越了单纯的娱乐。尽管之前的研究集中在孤立的笑声分析任务上,但对真实场景中笑声的全面理解仍然未得到充分探索。因此,我们引入了SMILE-Next数据集,旨在通过多模态文本表示和问题-答案注释,涵盖笑声检测、类型分类和推理三个任务。基于SMILE-Next,我们开发了一种专门针对笑声的大型语言模型,能够在真实场景中对笑声进行细致的理解。为此,我们提出了两个关键组件:笑声特定的Self-Instruct和混合笑声专家(MoLE)框架。实验结果表明,这些组件的结合显著超越了多模态LLM基线,推动了对真实场景中笑声的稳健理解。

🔬 方法详解

问题定义:本论文旨在解决对真实场景中笑声的理解问题,现有方法往往只关注孤立的笑声分析,无法捕捉笑声的多维社交信号。

核心思路:提出SMILE-Next数据集,结合笑声特定的Self-Instruct和MoLE框架,以增强模型在不同任务和领域的泛化能力。

技术框架:整体架构包括数据集构建、笑声特定的Self-Instruct生成和MoLE专家路由机制,动态选择适合每个任务的专家以提高性能。

关键创新:最重要的创新在于引入了任务自适应的专家路由机制MoLE,使得模型能够根据任务需求动态选择专家,从而提升了任务特定的性能和效率。

关键设计:在Self-Instruct中,自动合成多样化的笑声中心指令;MoLE框架通过动态路由选择专家,优化了模型的计算效率和性能。具体的参数设置和损失函数设计尚未详细披露。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,结合笑声特定的Self-Instruct和MoLE框架,模型在笑声检测、分类和推理任务上显著超越了多模态LLM基线,具体性能提升幅度达到XX%,展示了该方法在真实场景中理解笑声的有效性。

🎯 应用场景

该研究的潜在应用领域包括社交机器人、情感计算和人机交互等。通过对笑声的深入理解,能够提升机器在社交场景中的表现,增强人机沟通的自然性和有效性,未来可能对智能助手和社交媒体分析等领域产生深远影响。

📄 摘要(原文)

Laughter is a complex social signal that conveys communicative intent beyond amusement. While prior work has focused on isolated laughter analysis tasks, a comprehensive understanding of laughter in real-world scenarios remains underexplored. Therefore, we introduce SMILE-Next, a dataset for real-world laughter understanding with multimodal textual representations and question-answer annotations across three tasks: laughter detection, laughter type classification, and laughter reasoning. Building upon SMILE-Next, we aim to develop a laughter-specialized large language model capable of nuanced understanding of laughter in real-world contexts. To this end, we propose two key components: laughter-specific Self-Instruct and the Mixture-of-Laugh-Experts (MoLE) framework. Laughter-specific Self-Instruct enhances generalization across tasks and domains by automatically synthesizing diverse laughter-centric instructions. MoLE introduces a task-adaptive expert routing mechanism that dynamically selects specialized experts tailored to each laughter-related task, improving task-specific performance and efficiency. Experimental results show that the combination of our proposed components substantially outperforms multimodal LLM baselines, advancing robust real-world laughter understanding. Project page is at: https://mok0102.github.io/smile-next/.