DiNeR: a Large Realistic Dataset for Evaluating Compositional Generalization

📄 arXiv: 2406.04669v1 📥 PDF

作者: Chengang Hu, Xiao Liu, Yansong Feng

分类: cs.CL

发布日期: 2024-06-07

备注: EMNLP 2023 long paper

🔗 代码/项目: GITHUB


💡 一句话要点

提出DiNeR数据集,用于评估组合泛化能力,解决现有数据集的局限性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 组合泛化 菜名识别 自然语言处理 数据集构建 大型语言模型

📋 核心要点

  1. 现有组合泛化数据集缺乏自然语言变异性,规模和组合多样性不足,限制了模型在真实场景下的泛化能力。
  2. 提出DiNeR数据集,包含大量真实菜谱数据,涵盖食物、动作、口味等多种组合,以及回指、省略等语言现象。
  3. 在DiNeR数据集上,使用T5和大型语言模型作为基线模型,为后续研究提供了参考,并揭示了组合泛化的挑战。

📝 摘要(中文)

现有的组合泛化数据集大多是合成生成的,缺乏自然语言的变异性。虽然最近有一些尝试引入非合成数据集,但它们要么数据规模有限,要么组合形式缺乏多样性。为了更好地研究具有更多语言现象和组合多样性的组合泛化,我们提出了菜名识别(DiNeR)任务,并创建了一个大型真实的中文数据集。给定一个菜谱指令,模型需要识别由食物、动作和口味的不同组合组成的菜名。我们的数据集包含3,811道菜和228,114个菜谱,涉及大量的语言现象,如回指、省略和歧义。我们提供了两个基于T5和大型语言模型(LLMs)的强大基线。这项工作贡献了一个具有挑战性的任务、解决该任务的基线方法,以及对菜名识别背景下组合泛化的见解。代码和数据可在https://github.com/Jumpy-pku/DiNeR获得。

🔬 方法详解

问题定义:论文旨在解决组合泛化问题,即模型在学习了部分组合后,能否泛化到未见过的组合。现有组合泛化数据集要么是合成数据,缺乏真实语言的复杂性,要么规模较小,组合方式单一,无法充分评估模型的泛化能力。因此,需要一个大规模、真实的组合泛化数据集,以更好地研究和评估模型在真实场景下的表现。

核心思路:论文的核心思路是构建一个基于真实菜谱的菜名识别任务。菜名通常由食物、动作和口味等元素组合而成,不同的组合方式可以产生大量的菜名。通过让模型学习菜谱指令并识别对应的菜名,可以评估模型对不同组合的泛化能力。这种方法利用了真实世界的知识,并且可以自然地引入各种语言现象,如回指、省略和歧义。

技术框架:该研究主要围绕DiNeR数据集的构建和基线模型的实验展开。数据集构建过程包括数据收集、清洗、标注等步骤。基线模型采用了T5和大型语言模型,并针对菜名识别任务进行了微调。整体流程是:首先,构建DiNeR数据集;然后,使用T5和LLMs作为基线模型在DiNeR上进行训练和测试;最后,分析实验结果,并对组合泛化能力进行评估。

关键创新:该论文的关键创新在于提出了DiNeR数据集,这是一个大规模、真实的中文菜名识别数据集,专门用于评估组合泛化能力。与现有的合成数据集相比,DiNeR数据集包含了更丰富的语言现象和组合多样性,更贴近真实应用场景。此外,该论文还提供了基于T5和LLMs的基线模型,为后续研究提供了参考。

关键设计:DiNeR数据集包含3,811道菜和228,114个菜谱,涵盖了多种食物、动作和口味的组合。数据集中包含了大量的语言现象,如回指、省略和歧义,增加了任务的挑战性。基线模型采用了预训练的T5和大型语言模型,并使用交叉熵损失函数进行微调。具体的超参数设置(如学习率、batch size等)未知,但论文提供了代码,可以参考。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了包含3,811道菜和228,114个菜谱的DiNeR数据集,并使用T5和大型语言模型作为基线模型。实验结果表明,即使是大型语言模型在DiNeR数据集上也面临着组合泛化的挑战,这表明DiNeR数据集具有很高的难度和研究价值。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于智能烹饪、食谱推荐、自然语言理解等领域。通过提升模型在菜名识别任务上的组合泛化能力,可以提高智能烹饪系统的准确性和用户体验。此外,DiNeR数据集也可以作为评估其他自然语言处理模型组合泛化能力的基准。

📄 摘要(原文)

Most of the existing compositional generalization datasets are synthetically-generated, resulting in a lack of natural language variation. While there have been recent attempts to introduce non-synthetic datasets for compositional generalization, they suffer from either limited data scale or a lack of diversity in the forms of combinations. To better investigate compositional generalization with more linguistic phenomena and compositional diversity, we propose the DIsh NamE Recognition (DiNeR) task and create a large realistic Chinese dataset. Given a recipe instruction, models are required to recognize the dish name composed of diverse combinations of food, actions, and flavors. Our dataset consists of 3,811 dishes and 228,114 recipes, and involves plenty of linguistic phenomena such as anaphora, omission and ambiguity. We provide two strong baselines based on T5 and large language models (LLMs). This work contributes a challenging task, baseline methods to tackle the task, and insights into compositional generalization in the context of dish name recognition. Code and data are available at https://github.com/Jumpy-pku/DiNeR.