A Parallel Cross-Lingual Benchmark for Multimodal Idiomaticity Understanding

📄 arXiv: 2601.08645v1 📥 PDF

作者: Dilara Torunoğlu-Selamet, Dogukan Arslan, Rodrigo Wilkens, Wei He, Doruk Eryiğit, Thomas Pickard, Adriana S. Pagano, Aline Villavicencio, Gülşen Eryiğit, Ágnes Abuczki, Aida Cardoso, Alesia Lazarenka, Dina Almassova, Amalia Mendes, Anna Kanellopoulou, Antoni Brosa-Rodríguez, Baiba Saulite, Beata Wojtowicz, Bolette Pedersen, Carlos Manuel Hidalgo-Ternero, Chaya Liebeskind, Danka Jokić, Diego Alves, Eleni Triantafyllidi, Erik Velldal, Fred Philippy, Giedre Valunaite Oleskeviciene, Ieva Rizgeliene, Inguna Skadina, Irina Lobzhanidze, Isabell Stinessen Haugen, Jauza Akbar Krito, Jelena M. Marković, Johanna Monti, Josue Alejandro Sauca, Kaja Dobrovoljc, Kingsley O. Ugwuanyi, Laura Rituma, Lilja Øvrelid, Maha Tufail Agro, Manzura Abjalova, Maria Chatzigrigoriou, María del Mar Sánchez Ramos, Marija Pendevska, Masoumeh Seyyedrezaei, Mehrnoush Shamsfard, Momina Ahsan, Muhammad Ahsan Riaz Khan, Nathalie Carmen Hau Norman, Nilay Erdem Ayyıldız, Nina Hosseini-Kivanani, Noémi Ligeti-Nagy, Numaan Naeem, Olha Kanishcheva, Olha Yatsyshyna, Daniil Orel, Petra Giommarelli, Petya Osenova, Radovan Garabik, Regina E. Semou, Rozane Rebechi, Salsabila Zahirah Pranida, Samia Touileb, Sanni Nimb, Sarfraz Ahmad, Sarvinoz Nematkhonova, Shahar Golan, Shaoxiong Ji, Sopuruchi Christian Aboh, Srdjan Sucur, Stella Markantonatou, Sussi Olsen, Vahide Tajalli, Veronika Lipp, Voula Giouli, Yelda Yeşildal Eraydın, Zahra Saaberi, Zhuohan Xie

分类: cs.CL

发布日期: 2026-01-13


💡 一句话要点

提出XMPIE:一个用于多模态成语理解的并行跨语言基准数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 跨语言理解 成语理解 自然语言处理 基准数据集

📋 核心要点

  1. 现有NLP系统在理解与特定语言社区日常经验相关的潜在成语表达(PIEs)方面存在挑战,这需要系统具备一定的语言和文化能力。
  2. 论文提出了XMPIE数据集,它是一个并行多语言和多模态数据集,旨在促进对成语模式的跨语言比较和多模态理解的研究。
  3. XMPIE数据集包含34种语言和超过一万个条目,并为每个成语表达提供了文本描述和一系列从字面到成语意义的图像,为评估模型性能提供了高质量的基准。

📝 摘要(中文)

本文介绍了一个名为XMPIE的并行多语言和多模态的潜在成语表达(PIE)数据集。该数据集包含34种语言和超过一万个条目,允许对特定语言实现的成语模式和偏好进行比较分析,从而收集关于共享文化方面的见解。这个并行数据集可以评估模型在不同语言中对给定PIE的性能,以及一种语言中的成语理解是否可以转移到另一种语言。此外,该数据集支持跨文本和视觉模态的PIE研究,以衡量一种模态(文本与图像)中的PIE理解在多大程度上转移或暗示另一种模态的理解。数据由语言专家创建,文本和视觉组件均在多语言指南下制作,每个PIE都附有五张图像,这些图像代表从成语到字面意义的光谱,包括语义相关的和随机的干扰项。最终形成了一个高质量的基准,用于评估多语言和多模态成语语言理解。

🔬 方法详解

问题定义:论文旨在解决NLP系统在理解和处理潜在成语表达(PIEs)方面的不足。现有方法难以捕捉PIEs中蕴含的语言和文化信息,缺乏有效的跨语言和多模态评估基准。

核心思路:论文的核心思路是构建一个大规模、多语言、多模态的并行数据集,通过比较不同语言中PIEs的表达方式和在不同模态下的呈现方式,来促进对成语理解的深入研究,并为NLP模型提供更全面的训练和评估数据。

技术框架:XMPIE数据集的构建流程包括以下几个主要阶段:1) 确定要包含的PIEs;2) 由语言专家根据多语言指南创建PIEs的文本描述;3) 为每个PIE选择或生成五张图像,这些图像代表从字面到成语意义的光谱,包括语义相关的和随机的干扰项;4) 对数据进行质量控制和验证。

关键创新:XMPIE数据集的关键创新在于其并行多语言和多模态的特性。它不仅包含了多种语言的PIEs,还为每个PIE提供了文本和图像两种模态的信息,从而可以研究PIEs在不同语言和模态之间的关系,并评估模型在跨语言和多模态环境下的成语理解能力。

关键设计:数据集包含34种语言和超过一万个条目。每个PIE都配有五张图像,这些图像经过精心挑选或生成,以涵盖从字面到成语意义的各种可能性。图像的选择标准包括与PIE的语义相关性以及是否能够引发对PIE的成语理解。数据集还提供了详细的元数据,包括PIE的定义、用法示例以及与其他PIEs的关系。

📊 实验亮点

XMPIE数据集包含34种语言和超过一万个条目,是目前规模最大的多语言多模态成语理解数据集之一。该数据集的构建过程严格遵循多语言指南,保证了数据的质量和一致性。通过对该数据集进行实验,可以评估模型在不同语言和模态下的成语理解能力,并为未来的研究提供有价值的基准。

🎯 应用场景

该研究成果可应用于机器翻译、跨文化交流、情感分析、图像理解等领域。通过提高机器对成语的理解能力,可以改善机器翻译的质量,促进跨文化交流的顺畅进行,提升情感分析的准确性,并增强图像理解的语义深度。未来,该数据集可以用于开发更智能、更人性化的NLP系统。

📄 摘要(原文)

Potentially idiomatic expressions (PIEs) construe meanings inherently tied to the everyday experience of a given language community. As such, they constitute an interesting challenge for assessing the linguistic (and to some extent cultural) capabilities of NLP systems. In this paper, we present XMPIE, a parallel multilingual and multimodal dataset of potentially idiomatic expressions. The dataset, containing 34 languages and over ten thousand items, allows comparative analyses of idiomatic patterns among language-specific realisations and preferences in order to gather insights about shared cultural aspects. This parallel dataset allows to evaluate model performance for a given PIE in different languages and whether idiomatic understanding in one language can be transferred to another. Moreover, the dataset supports the study of PIEs across textual and visual modalities, to measure to what extent PIE understanding in one modality transfers or implies in understanding in another modality (text vs. image). The data was created by language experts, with both textual and visual components crafted under multilingual guidelines, and each PIE is accompanied by five images representing a spectrum from idiomatic to literal meanings, including semantically related and random distractors. The result is a high-quality benchmark for evaluating multilingual and multimodal idiomatic language understanding.