PolyFrame at MWE-2026 AdMIRe 2: When Words Are Not Enough: Multimodal Idiom Disambiguation

作者: Nina Hosseini-Kivanani

分类: cs.CL

发布日期: 2026-02-20

备注: Accepted at AdMIRe 2 shared task (Advancing Multimodal Idiomaticity Representation) colocated with 22nd Workshop on Multiword Expressions (MWE 2026) @EACL2026

💡 一句话要点

PolyFrame通过轻量级模块提升多模态成语歧义消解性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 成语歧义消解 视觉-语言模型 零样本迁移 多语言处理

📋 核心要点

多模态模型难以处理成语的非组合语义，尤其是在多语言环境下，歧义消解是关键挑战。
PolyFrame系统通过冻结的CLIP和BGE M3编码器，结合轻量级模块，实现成语歧义消解。
实验表明，成语感知重写显著提升性能，句子类型预测和多模态融合增强了模型的鲁棒性。

📝 摘要（中文）

多模态模型在处理成语时面临挑战，因为成语的含义通常是非组合的，尤其是在多语言环境中。本文介绍了PolyFrame，该系统参加了MWE-2026 AdMIRe2共享任务，旨在解决多模态成语歧义消解问题。PolyFrame采用统一的流程处理图像+文本排序（子任务A）和纯文本描述排序（子任务B）。所有模型变体都保留了冻结的CLIP风格的视觉-语言编码器和多语言BGE M3编码器，仅训练轻量级模块：逻辑回归和基于LLM的句子类型预测器、成语同义词替换、感知干扰项的评分以及Borda排序融合。从CLIP基线（在英语开发集上Top-1准确率为26.7%，在英语测试集上为6.7%）开始，添加成语感知的释义和显式句子类型分类将性能提高到英语Top-1准确率为60.0%，零样本迁移到葡萄牙语的Top-1准确率为60.0%（NDCG@5为0.822）。在多语言盲测中，我们的系统在15种语言的子任务A和子任务B上分别实现了平均Top-1/NDCG分数为0.35/0.73和0.32/0.71。消融实验结果表明，成语感知的重写是性能的主要贡献者，而句子类型预测和多模态融合增强了鲁棒性。这些发现表明，无需微调大型多模态编码器即可实现有效的成语歧义消解。

🔬 方法详解

问题定义：论文旨在解决多模态成语歧义消解问题，即在给定包含成语的文本和相关图像的情况下，正确理解成语的含义。现有方法通常难以处理成语的非组合语义，尤其是在跨语言场景下，性能显著下降。

核心思路：论文的核心思路是利用预训练的视觉-语言模型（CLIP）和多语言编码器（BGE M3）的强大表征能力，并在此基础上构建轻量级的模块来专门处理成语。通过成语感知的释义、句子类型分类和干扰项感知评分，增强模型对成语语义的理解和区分能力。

技术框架：PolyFrame系统包含以下主要模块：1) 冻结的CLIP风格视觉-语言编码器和BGE M3编码器，用于提取图像和文本的特征；2) 基于LLM的句子类型预测器，用于判断句子是否包含成语；3) 成语同义词替换模块，用于生成成语的释义；4) 干扰项感知评分模块，用于区分正确答案和干扰项；5) Borda排序融合模块，用于整合不同模块的输出结果。整个流程包括特征提取、语义增强、评分和排序等阶段。

关键创新：论文的关键创新在于提出了一种轻量级的、成语感知的多模态歧义消解方法。与直接微调大型多模态模型不同，PolyFrame通过训练轻量级模块来增强模型对成语的理解，从而在计算资源有限的情况下也能取得良好的性能。此外，成语感知的释义和句子类型分类是提升性能的关键。

关键设计：论文的关键设计包括：1) 使用冻结的CLIP和BGE M3编码器，避免了对大型模型的微调，降低了计算成本；2) 设计了成语同义词替换模块，通过生成成语的释义来增强模型对成语语义的理解；3) 引入了干扰项感知评分模块，用于区分正确答案和干扰项，提高了排序的准确性；4) 使用Borda排序融合模块，整合不同模块的输出结果，提高了整体性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PolyFrame系统在MWE-2026 AdMIRe2共享任务中取得了显著的性能提升。在英语开发集上，Top-1准确率从CLIP基线的26.7%提高到60.0%。在零样本迁移到葡萄牙语的任务中，Top-1准确率达到60.0%（NDCG@5为0.822）。在多语言盲测中，系统在15种语言的子任务A和子任务B上分别实现了平均Top-1/NDCG分数为0.35/0.73和0.32/0.71。消融实验表明，成语感知的重写是性能的主要贡献者。

🎯 应用场景

该研究成果可应用于多语言信息检索、跨文化交流、教育等领域。例如，可以帮助用户更好地理解外语文本中的成语，提高机器翻译的准确性，辅助语言学习者掌握成语的用法。此外，该方法还可以扩展到其他类型的多模态语义理解任务中。

📄 摘要（原文）

Multimodal models struggle with idiomatic expressions due to their non-compositional meanings, a challenge amplified in multilingual settings. We introduced PolyFrame, our system for the MWE-2026 AdMIRe2 shared task on multimodal idiom disambiguation, featuring a unified pipeline for both image+text ranking (Subtask A) and text-only caption ranking (Subtask B). All model variants retain frozen CLIP-style vision--language encoders and the multilingual BGE M3 encoder, training only lightweight modules: a logistic regression and LLM-based sentence-type predictor, idiom synonym substitution, distractor-aware scoring, and Borda rank fusion. Starting from a CLIP baseline (26.7% Top-1 on English dev, 6.7% on English test), adding idiom-aware paraphrasing and explicit sentence-type classification increased performance to 60.0% Top-1 on English and 60.0% Top-1 (0.822 NDCG@5) in zero-shot transfer to Portuguese. On the multilingual blind test, our systems achieved average Top-1/NDCG scores of 0.35/0.73 for Subtask A and 0.32/0.71 for Subtask B across 15 languages. Ablation results highlight idiom-aware rewriting as the main contributor to performance, while sentence-type prediction and multimodal fusion enhance robustness. These findings suggest that effective idiom disambiguation is feasible without fine-tuning large multimodal encoders.

PolyFrame at MWE-2026 AdMIRe 2: When Words Are Not Enough: Multimodal Idiom Disambiguation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理