NovaCOMET: Open Commonsense Foundation Models with Symbolic Knowledge Distillation
作者: Peter West, Ronan Le Bras, Taylor Sorensen, Bill Yuchen Lin, Liwei Jiang, Ximing Lu, Khyathi Chandu, Jack Hessel, Ashutosh Baheti, Chandra Bhagavatula, Yejin Choi
分类: cs.CL
发布日期: 2023-12-10
💡 一句话要点
NovaCOMET:利用符号知识蒸馏的开放常识基础模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 常识推理 知识蒸馏 开放知识图 语言模型 自然语言处理
📋 核心要点
- 现有知识模型关系固定,通用任务模型缺乏显式知识,导致常识推理性能受限。
- 通过符号知识蒸馏,将专有模型的知识提炼到开放的知识图NovATOMIC中,并以此训练NovaCOMET。
- 实验表明,NovaCOMET在常识生成任务上与或超过了Flan-T5等模型,验证了显式建模常识知识的优势。
📝 摘要(中文)
本文提出了NovaCOMET,一个开放的常识知识模型,它结合了知识模型和通用任务模型的优点。与以往的知识模型相比,NovaCOMET允许开放格式的关系,可以直接应用于推理任务;与Flan-T5等通用任务模型相比,它显式地以知识为中心,从而在常识推理方面表现出卓越的性能。NovaCOMET利用不透明的专有模型的知识来创建一个开放的知识管道。首先,知识被符号化地提炼到NovATOMIC中,这是一个公开的离散知识图,可以被审计、批评和过滤。接下来,我们通过在NovATOMIC上微调一个开源的预训练模型来训练NovaCOMET。NovaCOMET使用开放格式的训练目标,取代了过去知识模型中固定的关系集,使数据中的任意结构都可以作为输入或输出。由此产生的生成模型,可以选择性地通过人工标注进行增强,在各种常识生成任务上与Flan-T5等同类开放任务模型相匹配或超过它们。NovaCOMET作为当代仅关注指令调优的反例,证明了显式地建模常识知识也具有明显的优势。
🔬 方法详解
问题定义:现有常识知识模型通常使用固定的关系集合,限制了其灵活性和泛化能力。而通用任务模型,如大型语言模型,虽然具有强大的生成能力,但缺乏显式的常识知识表示,导致在需要常识推理的任务中表现不佳。因此,需要一种既能灵活表示知识,又能有效利用知识进行推理的模型。
核心思路:本文的核心思路是通过知识蒸馏,将大型专有模型的常识知识提取出来,并将其转化为一种开放的、可审计的知识表示形式。然后,利用这种知识表示来训练一个开放的常识知识模型。这样既能利用大型模型的知识,又能保证模型的开放性和可控性。
技术框架:NovaCOMET的整体框架包含两个主要阶段:1) 知识蒸馏阶段:利用专有模型生成常识知识,并将其符号化地表示为NovATOMIC知识图。NovATOMIC是一个公开的离散知识图,可以被审计、批评和过滤。2) 模型训练阶段:使用NovATOMIC知识图来微调一个开源的预训练模型,得到NovaCOMET模型。NovaCOMET使用开放格式的训练目标,允许数据中的任意结构作为输入或输出。
关键创新:NovaCOMET的关键创新在于其知识蒸馏方法和开放格式的训练目标。传统的知识蒸馏方法通常直接将模型的输出作为目标,而NovaCOMET则将知识符号化地表示为知识图,使得知识更加易于理解和利用。开放格式的训练目标则允许模型学习更广泛的常识知识,并能更好地适应不同的推理任务。
关键设计:在知识蒸馏阶段,作者使用了专有模型来生成大量的常识知识三元组。然后,对这些三元组进行过滤和清洗,得到高质量的NovATOMIC知识图。在模型训练阶段,作者使用了T5模型作为基础模型,并使用NovATOMIC知识图进行微调。训练目标是预测给定输入序列的下一个词,损失函数为交叉熵损失。作者还使用了数据增强技术,例如随机替换和插入,来提高模型的泛化能力。具体参数设置未知。
📊 实验亮点
NovaCOMET在多个常识生成任务上取得了与或超过Flan-T5等开放任务模型的结果,证明了显式建模常识知识的有效性。例如,在某些任务上,NovaCOMET甚至超过了Flan-T5,展示了其在常识推理方面的优越性能。具体数值提升幅度未知。
🎯 应用场景
NovaCOMET可应用于各种需要常识推理的自然语言处理任务,例如问答系统、文本生成、对话系统和故事理解。该模型能够提升机器在理解和生成人类语言方面的能力,使其更具智能和实用性。未来,NovaCOMET有望在教育、医疗、客服等领域发挥重要作用。
📄 摘要(原文)
We present NovaCOMET, an open commonsense knowledge model, that combines the best aspects of knowledge and general task models. Compared to previous knowledge models, NovaCOMET allows open-format relations enabling direct application to reasoning tasks; compared to general task models like Flan-T5, it explicitly centers knowledge, enabling superior performance for commonsense reasoning. NovaCOMET leverages the knowledge of opaque proprietary models to create an open knowledge pipeline. First, knowledge is symbolically distilled into NovATOMIC, a publicly-released discrete knowledge graph which can be audited, critiqued, and filtered. Next, we train NovaCOMET on NovATOMIC by fine-tuning an open-source pretrained model. NovaCOMET uses an open-format training objective, replacing the fixed relation sets of past knowledge models, enabling arbitrary structures within the data to serve as inputs or outputs. The resulting generation model, optionally augmented with human annotation, matches or exceeds comparable open task models like Flan-T5 on a range of commonsense generation tasks. NovaCOMET serves as a counterexample to the contemporary focus on instruction tuning only, demonstrating a distinct advantage to explicitly modeling commonsense knowledge as well.