DyKen-Hyena: Dynamic Kernel Generation via Cross-Modal Attention for Multimodal Intent Recognition
作者: Yifei Wang, Wenbin Wang, Yong Luo
分类: cs.LG
发布日期: 2025-09-12
备注: 8 pages, 2 figures
💡 一句话要点
DyKen-Hyena:通过跨模态注意力动态生成卷积核,用于多模态意图识别
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态意图识别 跨模态注意力 动态卷积核 特征调制 Hyena算子
📋 核心要点
- 现有MIR模型在融合多模态信息时,容易引入噪声和不相关信息,损害关键的语言特征。
- DyKen-Hyena将视听线索转化为动态卷积核,逐token地调节文本特征提取,实现细粒度的模态交互。
- 在MIntRec和MIntRec2.0数据集上,DyKen-Hyena取得了SOTA结果,并在范围外检测任务上提升显著。
📝 摘要(中文)
多模态意图识别(MIR)通过利用来自多种来源(如语言、视频和音频)的丰富信息已被证明是有效的。然而,模态间意图无关和冲突信息的潜力可能会阻碍性能的进一步提高。目前大多数模型尝试通过应用诸如多头注意力之类的机制来融合模态,将结果加回到原始表示。此过程有可能会用嘈杂或不相关的非语言信号破坏主要的语言特征,因为它通常无法捕获细粒度的token级别的影响,即非语言线索应该调节而非仅仅增强文本含义。为了解决这个问题,我们引入了DyKen-Hyena,它将问题从特征融合重新定义为处理调制。我们的模型将视听线索转换为动态的、逐token的卷积核,直接调节文本特征提取。这种细粒度的方法在MIntRec和MIntRec2.0基准测试中取得了最先进的结果。值得注意的是,它在范围外检测中产生了+10.46%的F1分数提升,验证了我们的方法创建了一种根本上更强大的意图表示。
🔬 方法详解
问题定义:多模态意图识别旨在利用多种模态的信息(如文本、音频、视频)来准确识别用户的意图。现有方法,特别是基于注意力机制的融合方法,容易将噪声或不相关的非语言信息引入到语言特征中,导致意图识别的准确性下降。这些方法通常无法捕捉到非语言信息对文本含义的细粒度调节作用。
核心思路:DyKen-Hyena的核心思路是将视听信息转化为动态的卷积核,用于调节文本特征的提取过程。这种方法避免了直接的特征融合,而是通过动态调整卷积核的参数,使文本特征提取过程能够感知并适应视听信息,从而实现更精确的意图识别。
技术框架:DyKen-Hyena模型主要包含以下几个模块:1) 文本特征提取模块:使用预训练语言模型(如BERT)提取文本特征。2) 视听特征提取模块:提取音频和视频的特征。3) 动态卷积核生成模块:利用跨模态注意力机制,将视听特征转化为动态的卷积核参数。4) 文本特征调制模块:使用生成的动态卷积核对文本特征进行卷积操作,实现文本特征的调制。5) 意图分类模块:将调制后的文本特征输入到分类器中,预测用户的意图。
关键创新:DyKen-Hyena的关键创新在于使用动态卷积核来调节文本特征提取过程。与传统的特征融合方法相比,这种方法能够更细粒度地控制视听信息对文本特征的影响,避免了噪声信息的引入。此外,跨模态注意力机制的使用使得动态卷积核的生成能够更好地捕捉视听信息与文本信息之间的关联。
关键设计:模型使用Hyena算子作为文本特征提取的主干网络,利用其高效的长序列建模能力。跨模态注意力机制采用多头注意力,以捕捉不同视听特征对文本特征的不同影响。动态卷积核的生成过程通过一个小型神经网络实现,该网络将视听特征作为输入,输出卷积核的参数。损失函数包括意图分类的交叉熵损失和正则化项,以防止过拟合。
🖼️ 关键图片
📊 实验亮点
DyKen-Hyena在MIntRec和MIntRec2.0基准测试中取得了最先进的结果。特别是在范围外检测任务中,相比现有方法,F1分数提升了10.46%。这表明DyKen-Hyena能够更有效地识别未知的意图,具有更强的鲁棒性和泛化能力。实验结果验证了动态卷积核调制方法在多模态意图识别中的有效性。
🎯 应用场景
DyKen-Hyena可应用于智能助手、智能客服、视频内容理解等领域。通过融合文本、音频和视频信息,能够更准确地理解用户的意图,提升人机交互的自然性和效率。例如,在智能客服中,可以根据用户的语音和表情来判断其情绪状态,从而提供更个性化的服务。在视频内容理解中,可以根据视频画面和声音来识别视频的主题和关键事件。
📄 摘要(原文)
Though Multimodal Intent Recognition (MIR) proves effective by utilizing rich information from multiple sources (e.g., language, video, and audio), the potential for intent-irrelevant and conflicting information across modalities may hinder performance from being further improved. Most current models attempt to fuse modalities by applying mechanisms like multi-head attention to unimodal feature sequences and then adding the result back to the original representation. This process risks corrupting the primary linguistic features with noisy or irrelevant non-verbal signals, as it often fails to capture the fine-grained, token-level influence where non-verbal cues should modulate, not just augment, textual meaning. To address this, we introduce DyKen-Hyena, which reframes the problem from feature fusion to processing modulation. Our model translates audio-visual cues into dynamic, per-token convolutional kernels that directly modulate textual feature extraction. This fine-grained approach achieves state-of-the-art results on the MIntRec and MIntRec2.0 benchmarks. Notably, it yields a +10.46% F1-score improvement in out-of-scope detection, validating that our method creates a fundamentally more robust intent representation.