Lost in Speech: Benchmarking, Evaluation, and Parsing of Spoken Code-Switching Beyond Standard UD Assumptions
作者: Nemika Tyagi, Holly Hendrix, Nelvin Licona-Guevara, Justin Mackie, Phanos Kareen, Muhammad Imran, Megan Michelle Smith, Tatiana Gallego Hernande, Chitta Baral, Olga Kellert
分类: cs.CL
发布日期: 2026-02-06
备注: 18 pages, 4 Figures
💡 一句话要点
针对口语代码切换,提出DECAP框架和FLEX-UD评估指标,提升句法分析性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 口语代码切换 句法分析 解耦框架 评估指标 自然语言处理
📋 核心要点
- 现有句法分析器在书面文本上表现良好,但在口语代码切换场景下,由于口语特有的现象(如口吃、重复等)导致性能显著下降。
- 论文提出DECAP框架,将口语现象处理与核心句法分析解耦,从而提高解析的鲁棒性和可解释性,无需重新训练。
- 实验表明,DECAP框架在口语代码切换数据上取得了显著的性能提升,最高可达52.6%,并且通过FLEX-UD评估指标揭示了质量上的改进。
📝 摘要(中文)
口语代码切换(CSW)对句法分析提出了书面文本中未曾遇到的挑战。口吃、重复、省略和语篇驱动的结构经常违反标准的通用依存关系(UD)假设,导致解析器和大型语言模型(LLM)在书面数据上表现良好,但在口语数据上失效。这些失败因严格的评估指标而加剧,这些指标将真正的结构性错误与可接受的变异混为一谈。本文提出了一种面向系统的口语CSW解析方法。我们引入了一个基于语言学的口语CSW现象分类法和一个专家注释的黄金基准SpokeBench,旨在测试超出标准UD假设的口语结构。我们进一步提出了FLEX-UD,一种感知歧义的评估指标,它揭示了现有的解析技术在口语CSW上的表现不佳,因为它会将语言上合理的分析视为错误进行惩罚。然后,我们提出了DECAP,一个解耦的代理式解析框架,它将口语现象处理与核心句法分析隔离开来。实验表明,DECAP在不重新训练的情况下产生更鲁棒和可解释的解析,并且比现有的解析技术提高了高达52.6%。FLEX-UD评估进一步揭示了标准指标所掩盖的质量改进。
🔬 方法详解
问题定义:现有句法分析器,特别是基于通用依存关系(UD)的分析器,在处理口语代码切换(CSW)时面临挑战。口语CSW包含大量在书面文本中不常见的现象,如口吃、重复、省略等,这些现象违反了UD的假设,导致分析器性能下降。此外,现有的评估指标过于严格,会将一些合理的口语变异视为错误,进一步掩盖了分析器的真实性能。
核心思路:论文的核心思路是将口语现象的处理与核心句法分析解耦。通过设计一个解耦的代理式解析框架(DECAP),将复杂的口语现象处理从核心句法分析中分离出来,使得核心句法分析器可以专注于处理句子的基本结构,而口语现象则由专门的模块处理。这种解耦的设计可以提高分析器的鲁棒性和可解释性。
技术框架:DECAP框架包含以下主要模块:1) 口语现象处理模块:负责检测和处理口语中常见的现象,如口吃、重复、省略等。2) 核心句法分析模块:负责分析句子的基本句法结构,可以使用现有的句法分析器。3) 整合模块:负责将口语现象处理模块的输出与核心句法分析模块的输出进行整合,生成最终的句法分析结果。整体流程是先由口语现象处理模块对输入句子进行预处理,然后将预处理后的句子输入到核心句法分析模块进行句法分析,最后由整合模块将两个模块的输出进行整合。
关键创新:DECAP框架的关键创新在于其解耦的设计。通过将口语现象处理与核心句法分析解耦,可以使得每个模块专注于处理特定的任务,从而提高整体的性能和可解释性。此外,论文还提出了FLEX-UD评估指标,该指标可以更准确地评估分析器在口语CSW上的性能,避免了现有评估指标的局限性。
关键设计:DECAP框架的具体实现细节未知,论文中可能没有详细描述口语现象处理模块和整合模块的具体实现方式。FLEX-UD评估指标的设计考虑了口语CSW中常见的变异现象,例如允许一定的句法结构歧义,从而更准确地评估分析器的性能。具体的参数设置、损失函数、网络结构等技术细节未知。
🖼️ 关键图片
📊 实验亮点
DECAP框架在SpokeBench数据集上取得了显著的性能提升,最高可达52.6%。FLEX-UD评估指标揭示了DECAP框架在质量上的改进,这些改进被标准评估指标所掩盖。实验结果表明,DECAP框架在不重新训练的情况下,也能有效提高口语代码切换的句法分析性能。
🎯 应用场景
该研究成果可应用于语音助手、语音翻译、语音搜索等领域,尤其是在处理多语言混合的口语场景下。通过提高口语代码切换的句法分析准确率,可以提升这些应用的用户体验和性能,并为未来更复杂的人机交互提供技术支持。
📄 摘要(原文)
Spoken code-switching (CSW) challenges syntactic parsing in ways not observed in written text. Disfluencies, repetition, ellipsis, and discourse-driven structure routinely violate standard Universal Dependencies (UD) assumptions, causing parsers and large language models (LLMs) to fail despite strong performance on written data. These failures are compounded by rigid evaluation metrics that conflate genuine structural errors with acceptable variation. In this work, we present a systems-oriented approach to spoken CSW parsing. We introduce a linguistically grounded taxonomy of spoken CSW phenomena and SpokeBench, an expert-annotated gold benchmark designed to test spoken-language structure beyond standard UD assumptions. We further propose FLEX-UD, an ambiguity-aware evaluation metric, which reveals that existing parsing techniques perform poorly on spoken CSW by penalizing linguistically plausible analyses as errors. We then propose DECAP, a decoupled agentic parsing framework that isolates spoken-phenomena handling from core syntactic analysis. Experiments show that DECAP produces more robust and interpretable parses without retraining and achieves up to 52.6% improvements over existing parsing techniques. FLEX-UD evaluations further reveal qualitative improvements that are masked by standard metrics.