PolyFrame at MWE-2026 AdMIRe 2: When Words Are Not Enough: Multimodal Idiom Disambiguation

📄 arXiv: 2602.18652v1 📥 PDF

作者: Nina Hosseini-Kivanani

分类: cs.CL

发布日期: 2026-02-20

备注: Accepted at AdMIRe 2 shared task (Advancing Multimodal Idiomaticity Representation) colocated with 22nd Workshop on Multiword Expressions (MWE 2026) @EACL2026


💡 一句话要点

PolyFrame通过轻量级模块提升多模态成语歧义消解性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 成语歧义消解 视觉-语言模型 零样本迁移 多语言处理

📋 核心要点

  1. 多模态模型难以处理成语的非组合语义,尤其是在多语言环境下,歧义消解是关键挑战。
  2. PolyFrame系统通过冻结的CLIP和BGE M3编码器,结合轻量级模块,实现成语歧义消解。
  3. 实验表明,成语感知重写显著提升性能,句子类型预测和多模态融合增强了模型的鲁棒性。

📝 摘要(中文)

多模态模型在处理成语时面临挑战,因为成语的含义通常是非组合的,尤其是在多语言环境中。本文介绍了PolyFrame,该系统参加了MWE-2026 AdMIRe2共享任务,旨在解决多模态成语歧义消解问题。PolyFrame采用统一的流程处理图像+文本排序(子任务A)和纯文本描述排序(子任务B)。所有模型变体都保留了冻结的CLIP风格的视觉-语言编码器和多语言BGE M3编码器,仅训练轻量级模块:逻辑回归和基于LLM的句子类型预测器、成语同义词替换、感知干扰项的评分以及Borda排序融合。从CLIP基线(在英语开发集上Top-1准确率为26.7%,在英语测试集上为6.7%)开始,添加成语感知的释义和显式句子类型分类将性能提高到英语Top-1准确率为60.0%,零样本迁移到葡萄牙语的Top-1准确率为60.0%(NDCG@5为0.822)。在多语言盲测中,我们的系统在15种语言的子任务A和子任务B上分别实现了平均Top-1/NDCG分数为0.35/0.73和0.32/0.71。消融实验结果表明,成语感知的重写是性能的主要贡献者,而句子类型预测和多模态融合增强了鲁棒性。这些发现表明,无需微调大型多模态编码器即可实现有效的成语歧义消解。

🔬 方法详解

问题定义:论文旨在解决多模态成语歧义消解问题,即在给定包含成语的文本和相关图像的情况下,正确理解成语的含义。现有方法通常难以处理成语的非组合语义,尤其是在跨语言场景下,性能显著下降。

核心思路:论文的核心思路是利用预训练的视觉-语言模型(CLIP)和多语言编码器(BGE M3)的强大表征能力,并在此基础上构建轻量级的模块来专门处理成语。通过成语感知的释义、句子类型分类和干扰项感知评分,增强模型对成语语义的理解和区分能力。

技术框架:PolyFrame系统包含以下主要模块:1) 冻结的CLIP风格视觉-语言编码器和BGE M3编码器,用于提取图像和文本的特征;2) 基于LLM的句子类型预测器,用于判断句子是否包含成语;3) 成语同义词替换模块,用于生成成语的释义;4) 干扰项感知评分模块,用于区分正确答案和干扰项;5) Borda排序融合模块,用于整合不同模块的输出结果。整个流程包括特征提取、语义增强、评分和排序等阶段。

关键创新:论文的关键创新在于提出了一种轻量级的、成语感知的多模态歧义消解方法。与直接微调大型多模态模型不同,PolyFrame通过训练轻量级模块来增强模型对成语的理解,从而在计算资源有限的情况下也能取得良好的性能。此外,成语感知的释义和句子类型分类是提升性能的关键。

关键设计:论文的关键设计包括:1) 使用冻结的CLIP和BGE M3编码器,避免了对大型模型的微调,降低了计算成本;2) 设计了成语同义词替换模块,通过生成成语的释义来增强模型对成语语义的理解;3) 引入了干扰项感知评分模块,用于区分正确答案和干扰项,提高了排序的准确性;4) 使用Borda排序融合模块,整合不同模块的输出结果,提高了整体性能。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

实验结果表明,PolyFrame系统在MWE-2026 AdMIRe2共享任务中取得了显著的性能提升。在英语开发集上,Top-1准确率从CLIP基线的26.7%提高到60.0%。在零样本迁移到葡萄牙语的任务中,Top-1准确率达到60.0%(NDCG@5为0.822)。在多语言盲测中,系统在15种语言的子任务A和子任务B上分别实现了平均Top-1/NDCG分数为0.35/0.73和0.32/0.71。消融实验表明,成语感知的重写是性能的主要贡献者。

🎯 应用场景

该研究成果可应用于多语言信息检索、跨文化交流、教育等领域。例如,可以帮助用户更好地理解外语文本中的成语,提高机器翻译的准确性,辅助语言学习者掌握成语的用法。此外,该方法还可以扩展到其他类型的多模态语义理解任务中。

📄 摘要(原文)

Multimodal models struggle with idiomatic expressions due to their non-compositional meanings, a challenge amplified in multilingual settings. We introduced PolyFrame, our system for the MWE-2026 AdMIRe2 shared task on multimodal idiom disambiguation, featuring a unified pipeline for both image+text ranking (Subtask A) and text-only caption ranking (Subtask B). All model variants retain frozen CLIP-style vision--language encoders and the multilingual BGE M3 encoder, training only lightweight modules: a logistic regression and LLM-based sentence-type predictor, idiom synonym substitution, distractor-aware scoring, and Borda rank fusion. Starting from a CLIP baseline (26.7% Top-1 on English dev, 6.7% on English test), adding idiom-aware paraphrasing and explicit sentence-type classification increased performance to 60.0% Top-1 on English and 60.0% Top-1 (0.822 NDCG@5) in zero-shot transfer to Portuguese. On the multilingual blind test, our systems achieved average Top-1/NDCG scores of 0.35/0.73 for Subtask A and 0.32/0.71 for Subtask B across 15 languages. Ablation results highlight idiom-aware rewriting as the main contributor to performance, while sentence-type prediction and multimodal fusion enhance robustness. These findings suggest that effective idiom disambiguation is feasible without fine-tuning large multimodal encoders.