LIMSSR: LLM-Driven Sequence-to-Score Reasoning under Training-Time Incomplete Multimodal Observations

📄 arXiv: 2605.00434v1 📥 PDF

作者: Huangbiao Xu, Huanqi Wu, Xiao Ke, Yuxin Peng

分类: cs.CV

发布日期: 2026-05-01

备注: ICML 2026 [Spotlight]

🔗 代码/项目: GITHUB


💡 一句话要点

提出LIMSSR框架,解决训练时多模态数据不完整情况下的序列到评分推理问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 不完整多模态学习 大型语言模型 序列到评分推理 动作质量评估 模态插补

📋 核心要点

  1. 现有不完整多模态学习方法依赖训练时完整模态数据,现实场景中难以满足,限制了其应用。
  2. LIMSSR利用LLM的语义推理能力,通过上下文感知模态插补和多维表示融合,实现不完整数据下的推理。
  3. 实验表明,LIMSSR在动作质量评估任务上显著优于现有方法,实现了数据高效的多模态学习。

📝 摘要(中文)

真实世界的多模态学习经常受到模态缺失的阻碍。尽管不完整多模态学习(IML)已受到关注,但现有方法通常依赖于不切实际的假设,即训练期间完全模态可用,以提供重建监督或跨模态先验。本文解决了在训练时存在不完整观测的更具挑战性的IML设置,这排除了依赖于完整数据的“上帝视角”。我们提出了LIMSSR(LLM驱动的不完整多模态序列到评分推理),该框架将这一挑战重新定义为条件序列推理任务。LIMSSR利用大型语言模型的语义推理能力,通过提示引导的上下文感知模态插补和多维表示融合,从可用上下文中推断潜在语义,而无需直接重建。为了减轻幻觉,我们引入了掩码感知双路径聚合来动态校准推理不确定性。在三个动作质量评估数据集上的大量实验表明,LIMSSR在不依赖完整训练数据的情况下,显著优于最先进的基线,为数据高效的多模态学习建立了一种新的范例。代码可在https://github.com/XuHuangbiao/LIMSSR 获得。

🔬 方法详解

问题定义:论文旨在解决训练阶段多模态数据不完整情况下的序列到评分推理问题。现有方法通常假设训练数据是完整的,这在实际应用中往往不成立。这些方法依赖于完整的模态数据进行重建监督或跨模态先验学习,当训练数据缺失时,性能会显著下降。因此,如何在训练数据不完整的情况下进行有效的多模态学习是一个重要的挑战。

核心思路:LIMSSR的核心思路是利用大型语言模型(LLM)强大的语义推理能力,将不完整多模态学习问题转化为条件序列推理任务。通过提示引导的上下文感知模态插补,LLM可以从可用的上下文中推断出潜在的语义信息,从而弥补缺失模态带来的信息损失。这种方法避免了直接重建缺失模态,而是侧重于理解和推理,更符合人类的认知方式。

技术框架:LIMSSR的整体框架包含以下几个主要模块:1) Prompt-Guided Context-Aware Modality Imputation: 利用LLM根据上下文信息对缺失模态进行插补,生成模态表示。2) Multidimensional Representation Fusion: 将不同模态的表示进行融合,得到统一的多模态表示。3) Mask-Aware Dual-Path Aggregation: 通过掩码机制感知模态缺失情况,并采用双路径聚合方式动态校准推理不确定性。最终,模型输出序列的评分。

关键创新:LIMSSR的关键创新在于利用LLM进行上下文感知的模态插补,避免了对完整训练数据的依赖。与传统的重建方法不同,LIMSSR侧重于利用LLM的语义推理能力,从可用的上下文中推断潜在的语义信息。此外,Mask-Aware Dual-Path Aggregation机制能够有效地缓解由于模态缺失带来的推理不确定性。

关键设计:在Prompt-Guided Context-Aware Modality Imputation中,设计合适的Prompt至关重要,需要引导LLM理解任务目标并生成高质量的模态表示。Mask-Aware Dual-Path Aggregation中,掩码的设计需要准确反映模态缺失情况,双路径聚合的权重需要根据掩码信息进行动态调整。损失函数的设计需要考虑评分的准确性和一致性,例如可以使用均方误差损失或交叉熵损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LIMSSR在三个动作质量评估数据集上取得了显著的性能提升,无需依赖完整的训练数据。实验结果表明,LIMSSR显著优于现有的不完整多模态学习方法,证明了其在数据高效多模态学习方面的优势。具体的性能数据和对比基线可以在论文的实验部分找到。

🎯 应用场景

LIMSSR框架可广泛应用于动作识别、视频理解、情感分析等领域,尤其是在数据采集受限或存在模态缺失的场景下。例如,在医疗诊断中,患者的生理数据可能存在缺失,LIMSSR可以利用已有的数据进行推理,辅助医生进行诊断。此外,该方法还可以应用于机器人领域,帮助机器人在不完整感知信息下做出决策。

📄 摘要(原文)

Real-world multimodal learning is often hindered by missing modalities. While Incomplete Multimodal Learning (IML) has gained traction, existing methods typically rely on the unrealistic assumption of full-modal availability during training to provide reconstruction supervision or cross-modal priors. This paper tackles the more challenging setting of IML under training-time incomplete observations, which precludes reliance on a ``God's eye view'' of complete data. We propose LIMSSR (LLM-Driven Incomplete Multimodal Sequence-to-Score Reasoning), a framework that reformulates this challenge as a conditional sequence reasoning task. LIMSSR leverages the semantic reasoning capabilities of Large Language Models via Prompt-Guided Context-Aware Modality Imputation and Multidimensional Representation Fusion to infer latent semantics from available contexts without direct reconstruction. To mitigate hallucinations, we introduce a Mask-Aware Dual-Path Aggregation to dynamically calibrate inference uncertainty. Extensive experiments on three Action Quality Assessment datasets demonstrate that LIMSSR significantly outperforms state-of-the-art baselines without relying on complete training data, establishing a new paradigm for data-efficient multimodal learning. Code is available at https://github.com/XuHuangbiao/LIMSSR.