Picturized and Recited with Dialects: A Multimodal Chinese Representation Framework for Sentiment Analysis of Classical Chinese Poetry
作者: Xiaocong Du, Haoyu Pei, Haipeng Zhang
分类: cs.CL, cs.AI
发布日期: 2025-05-19
💡 一句话要点
提出方言增强的多模态框架,用于提升古诗词情感分析的准确性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 古诗词情感分析 多模态学习 方言增强 对比表示学习 音频特征 视觉特征 LLM 中文表示
📋 核心要点
- 现有古诗词情感分析方法忽略了诗歌的韵律和视觉信息,导致情感理解不完整。
- 利用方言音频和视觉信息,通过多模态对比学习融合文本特征,提升情感分析效果。
- 实验结果表明,该框架在准确率和宏F1指标上均优于现有方法,具有显著提升。
📝 摘要(中文)
本文提出了一种方言增强的多模态框架,用于分析古诗词的情感。现有研究主要基于文本含义分析情感,忽略了诗歌独特的韵律和视觉特征,尤其是在诗歌经常被吟诵并配以中国画的情况下。该框架从诗歌中提取句子级别的音频特征,并融入多种方言的音频,这些方言可能保留了古代汉语的语音特征,从而丰富语音表示。此外,生成句子级别的视觉特征,并通过多模态对比表示学习将多模态特征与LLM翻译增强的文本特征融合。在两个公共数据集上,该框架优于当前最先进的方法,在准确率上至少提高了2.51%,在宏F1上至少提高了1.63%。代码已开源,以促进该领域的研究,并为通用多模态中文表示提供见解。
🔬 方法详解
问题定义:现有古诗词情感分析方法主要依赖文本信息,忽略了诗歌的韵律(通过吟诵体现)和视觉信息(通常伴随绘画),导致情感理解不完整。这些方法无法充分捕捉诗歌的全部情感内涵。
核心思路:论文的核心思路是利用多模态信息(文本、音频、视觉)来更全面地理解古诗词的情感。通过引入方言音频,期望保留更多古代汉语的语音特征,从而增强音频模态的情感表达能力。同时,结合视觉信息,进一步丰富情感表达。
技术框架:整体框架包含以下几个主要模块:1) 文本特征提取:使用LLM翻译增强文本表示。2) 音频特征提取:从诗歌的吟诵音频中提取句子级别的音频特征,并融合多种方言的音频。3) 视觉特征提取:生成句子级别的视觉特征(具体生成方法未知)。4) 多模态融合:通过多模态对比表示学习,将文本、音频和视觉特征进行融合。5) 情感分类:使用融合后的特征进行情感分类。
关键创新:该论文的关键创新在于:1) 引入方言音频来增强语音表示,这是一种新颖的思路,可能更接近古代汉语的发音。2) 将音频和视觉信息与文本信息进行多模态融合,更全面地捕捉诗歌的情感。3) 使用多模态对比表示学习,使得不同模态的特征能够更好地对齐和融合。
关键设计:论文中关于音频特征提取和视觉特征生成的具体方法未知。多模态对比表示学习的具体实现细节也未知,例如使用的对比损失函数、温度系数等。LLM翻译增强文本表示的具体方法也未知。这些细节将影响最终的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在两个公共数据集上均优于当前最先进的方法,在准确率上至少提高了2.51%,在宏F1上至少提高了1.63%。这表明引入方言音频和视觉信息,并进行多模态融合,能够有效提升古诗词情感分析的性能。
🎯 应用场景
该研究可应用于智能诗词教育、文化遗产保护、情感计算等领域。通过更准确地理解古诗词的情感,可以提升诗词学习的趣味性和深度,并为相关文化产品的开发提供技术支持。未来,该方法可以扩展到其他类型文学作品的情感分析,甚至跨语言的情感理解。
📄 摘要(原文)
Classical Chinese poetry is a vital and enduring part of Chinese literature, conveying profound emotional resonance. Existing studies analyze sentiment based on textual meanings, overlooking the unique rhythmic and visual features inherent in poetry,especially since it is often recited and accompanied by Chinese paintings. In this work, we propose a dialect-enhanced multimodal framework for classical Chinese poetry sentiment analysis. We extract sentence-level audio features from the poetry and incorporate audio from multiple dialects,which may retain regional ancient Chinese phonetic features, enriching the phonetic representation. Additionally, we generate sentence-level visual features, and the multimodal features are fused with textual features enhanced by LLM translation through multimodal contrastive representation learning. Our framework outperforms state-of-the-art methods on two public datasets, achieving at least 2.51% improvement in accuracy and 1.63% in macro F1. We open-source the code to facilitate research in this area and provide insights for general multimodal Chinese representation.