Entity Binding Failures in Speech LLM Reasoning: Diagnosis and Chain-of-Thought Intervention

📄 arXiv: 2606.04474v1 📥 PDF

作者: Ming-Hao Hsu, Xiaohai Tian, Jun Zhang, Zhizheng Wu

分类: cs.CL, eess.AS

发布日期: 2026-06-03


💡 一句话要点

提出Entity-Aware Chain-of-Thought以解决语音LLM推理中的实体绑定失败问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音大型语言模型 逻辑推理 实体绑定 Chain-of-Thought 语音识别 智能助手 自动问答

📋 核心要点

  1. 现有的语音大型语言模型在逻辑推理任务中表现不佳,尤其是在需要实体追踪的情况下,准确率显著下降。
  2. 论文提出了Entity-Aware Chain-of-Thought(EA-CoT)方法,要求模型在推理前明确列举和绑定实体,以改善推理准确性。
  3. 实验结果显示,EA-CoT在处理语音输入时,即使在名称误识别的情况下,仍能实现高达24.4%的准确率提升。

📝 摘要(中文)

语音大型语言模型(SLLMs)在复杂推理任务上表现不如文本模型。研究表明,这种模态差距并非均匀的认知缺陷。通过评估三种不同的SLLMs,发现语音转文本(S2T)在空间、句法和事实任务上表现良好,但在需要实体追踪的逻辑任务中,S2T的准确率骤降至随机水平。我们将这种局部退化诊断为实体绑定失败,认为连续的语音特征导致模型在隐式推理过程中失去精确的实体-属性关联。为了解决这一问题,提出了Entity-Aware Chain-of-Thought(EA-CoT),强制SLLMs在推理前明确列举实体并将其绑定到主张上。EA-CoT显著缩小了这一差距,即使在口语名称被误识别的情况下,准确率也提高了24.4%。

🔬 方法详解

问题定义:本研究旨在解决语音大型语言模型在逻辑推理任务中出现的实体绑定失败问题。现有方法在处理连续语音特征时,模型难以保持精确的实体-属性关联,导致推理准确率下降。

核心思路:论文的核心解决思路是引入Entity-Aware Chain-of-Thought(EA-CoT)机制,要求模型在推理之前显式地列举和绑定实体,从而增强模型的推理能力。这样的设计旨在减少因语音输入造成的模糊性和不确定性。

技术框架:EA-CoT的整体架构包括两个主要阶段:首先,模型识别并列举输入中的实体;其次,将这些实体绑定到相应的主张上,确保在推理过程中保持清晰的关联。

关键创新:最重要的技术创新在于引入了显式的语义绑定机制,这与传统的隐式推理方法形成鲜明对比。通过这种方式,模型能够更好地处理复杂的逻辑推理任务。

关键设计:在EA-CoT中,关键设计包括实体识别模块和绑定机制,确保模型在推理前能够准确识别和关联实体。此外,损失函数的设计也考虑了实体绑定的准确性,以优化模型的学习过程。

📊 实验亮点

实验结果表明,采用EA-CoT方法后,语音大型语言模型在逻辑推理任务中的准确率提高了高达24.4%。这一提升在名称误识别的情况下依然显著,表明该方法有效解决了实体绑定失败的问题。

🎯 应用场景

该研究的潜在应用领域包括智能助手、语音识别系统和自动问答系统等。通过提高语音模型在复杂推理任务中的表现,能够显著提升用户体验和系统的智能化水平,未来可能在教育、医疗和客户服务等多个行业产生深远影响。

📄 摘要(原文)

Speech Large Language Models (SLLMs) underperform their text counterparts on complex reasoning. We reveal that this modality gap is not a uniform cognitive deficit. Evaluating three diverse SLLMs, we show speech-to-text (S2T) matches or exceeds text-to-text (T2T) on spatial, syntactic, and factual tasks. However, on logical tasks requiring entity tracking, S2T accuracy collapses to chance. We diagnose this localized degradation as an entity binding failure: continuous speech features cause models to lose precise entity-property associations during implicit reasoning. To resolve this, we propose Entity-Aware Chain-of-Thought (EA-CoT), forcing SLLMs to explicitly enumerate entities and bind them to claims before reasoning. Strikingly, EA-CoT bridges the gap, even when spoken names are misrecognized, yielding up to a 24.4% absolute accuracy improvement. Ablations confirm these gains stem entirely from explicit semantic binding, reframing the gap as a resolvable bottleneck.