What are Foundation Models Cooking in the Post-Soviet World?

📄 arXiv: 2502.18583v3 📥 PDF

作者: Anton Lavrouk, Tarek Naous, Alan Ritter, Wei Xu

分类: cs.CL

发布日期: 2025-02-25 (更新: 2025-09-23)

备注: Accepted to EMNLP 2025 Main Conference

🔗 代码/项目: GITHUB


💡 一句话要点

构建BORSch数据集,揭示大模型在后苏联文化食物知识上的局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文化知识 后苏联地区 多模态数据集 菜肴起源

📋 核心要点

  1. 现有大模型在文化知识方面存在不足,尤其是在后苏联这种文化背景复杂的区域。
  2. 论文构建BORSch数据集,并设计多模态问答和视觉描述任务,评估模型对后苏联菜肴的理解。
  3. 实验表明,模型在识别菜肴起源方面表现不佳,揭示了预训练数据偏差和语言现象的影响。

📝 摘要(中文)

本研究关注大模型在后苏联文化背景下的食物知识。作者构建了一个名为BORSch的多模态数据集,包含俄语和乌克兰语的1147和823道菜肴,这些菜肴都与后苏联地区相关。研究表明,主流模型在仅文本和多模态问答(QA)任务中,都难以正确识别后苏联国家菜肴的起源,反而倾向于过度预测与提问语言相关的国家。通过分析预训练数据,作者发现这种现象可归因于具有误导性的菜肴-起源共现关系,以及俄语-乌克兰语代码混合等语言现象。此外,研究还测试了模型生成菜肴准确视觉描述的能力。该任务与QA任务之间的弱相关性表明,仅依靠QA可能不足以评估文化理解。BORSch数据集将在https://github.com/alavrouk/BORSch 公开。

🔬 方法详解

问题定义:现有的大型语言模型在处理特定文化背景下的知识时,尤其是在后苏联地区这种历史复杂、文化交融的区域,表现出明显的局限性。具体来说,模型难以准确识别菜肴的文化起源,容易受到预训练数据中的偏差和语言混淆的影响。现有方法缺乏对模型文化理解能力的深入评估,仅仅依赖于通用知识问答可能无法充分反映模型在特定文化领域的表现。

核心思路:论文的核心思路是通过构建一个专门针对后苏联地区菜肴的多模态数据集BORSch,来更全面地评估大型语言模型在文化知识方面的能力。通过设计多模态问答和视觉描述任务,考察模型对菜肴起源的理解以及生成准确视觉描述的能力,从而揭示模型在文化理解方面的不足。

技术框架:该研究的技术框架主要包括以下几个部分:1) 构建BORSch数据集,包含俄语和乌克兰语的菜肴名称、描述和图片;2) 设计多模态问答任务,要求模型回答菜肴的起源国家;3) 设计视觉描述任务,要求模型根据菜肴图片生成描述文本;4) 分析预训练数据,寻找导致模型预测偏差的原因,例如菜肴-起源共现关系和语言现象。

关键创新:该研究的关键创新在于:1) 构建了专门针对后苏联地区菜肴的多模态数据集BORSch,填补了该领域数据集的空白;2) 提出了基于多模态问答和视觉描述的综合评估方法,更全面地考察了模型在文化知识方面的能力;3) 通过分析预训练数据,揭示了导致模型预测偏差的潜在原因,为改进模型提供了新的思路。

关键设计:BORSch数据集包含1147道俄语菜肴和823道乌克兰语菜肴,每道菜肴都包含名称、描述和图片。多模态问答任务采用标准的问答形式,问题是“这道菜起源于哪个国家?”,答案是菜肴的起源国家。视觉描述任务采用图像到文本的生成形式,模型需要根据菜肴图片生成描述文本。研究中使用了多种主流的大型语言模型,例如GPT-3、CLIP等,并采用了标准的训练和评估流程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,主流模型在BORSch数据集上的多模态问答任务中表现不佳,难以正确识别后苏联国家菜肴的起源,反而倾向于过度预测与提问语言相关的国家。视觉描述任务与问答任务之间的弱相关性表明,仅依靠问答可能不足以评估文化理解。这些结果揭示了现有模型在文化知识方面的局限性,并为改进模型提供了新的方向。

🎯 应用场景

该研究成果可应用于提升大型语言模型在特定文化领域的知识水平和理解能力,减少文化偏见和误解。BORSch数据集可以作为训练和评估模型的基准,促进相关研究的进展。此外,该研究的方法论也可以推广到其他文化领域,用于评估模型在不同文化背景下的表现。

📄 摘要(原文)

The culture of the Post-Soviet states is complex, shaped by a turbulent history that continues to influence current events. In this study, we investigate the Post-Soviet cultural food knowledge of foundation models by constructing BORSch, a multimodal dataset encompassing 1147 and 823 dishes in the Russian and Ukrainian languages, centered around the Post-Soviet region. We demonstrate that leading models struggle to correctly identify the origins of dishes from Post-Soviet nations in both text-only and multimodal Question Answering (QA), instead over-predicting countries linked to the language the question is asked in. Through analysis of pretraining data, we show that these results can be explained by misleading dish-origin co-occurrences, along with linguistic phenomena such as Russian-Ukrainian code mixing. Finally, to move beyond QA-based assessments, we test models' abilities to produce accurate visual descriptions of dishes. The weak correlation between this task and QA suggests that QA alone may be insufficient as an evaluation of cultural understanding. To foster further research, we will make BORSch publicly available at https://github.com/alavrouk/BORSch.