Cross-Modal Coreference Alignment: Enabling Reliable Information Transfer in Omni-LLMs

📄 arXiv: 2604.05522v1 📥 PDF

作者: Hongcheng Liu, Yuhao Wang, Zhe Chen, Pingjie Wang, Zhiyuan Zhu, Yixuan Hou, Yanfeng Wang, Yu Wang

分类: cs.CL

发布日期: 2026-04-07


💡 一句话要点

提出CrossOmni数据集,揭示并解决Omni-LLM跨模态共指对齐难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨模态学习 共指消解 多模态推理 大型语言模型 数据集构建

📋 核心要点

  1. 现有Omni-LLM在跨模态推理中缺乏细粒度的共指对齐能力,导致复杂场景下性能不佳。
  2. 论文将跨模态共指问题形式化,并提出CrossOmni数据集,用于评估和提升模型在该方面的能力。
  3. 通过免训练的上下文学习和基于训练的SFT+GRPO框架,显著提升了模型在跨模态共指任务上的性能。

📝 摘要(中文)

Omni大型语言模型(Omni-LLM)在整体多模态感知方面表现出令人印象深刻的能力,但在需要协同全模态推理的复杂场景中,它们始终表现不佳。除了理解全局多模态上下文之外,有效的推理还取决于细粒度的跨模态对齐,特别是识别跨模态的共享指称对象,但这一方面在很大程度上被忽视了。为了弥合这一差距,我们将这一挑战形式化为一个跨模态共指问题,即模型必须在源模态中定位一个指称对象,并在目标模态中重新识别它。基于这种范式,我们引入了CrossOmni,一个包含九个任务的数据集,配备了人工设计的推理原理,以评估和增强这种能力。对13个Omni-LLM的实验揭示了跨模态共指的系统性弱点,我们将其归因于缺乏共指感知的思维模式。为了解决这个问题,我们通过两种策略来增强跨模态对齐:一种是免训练的上下文学习方法,另一种是基于训练的SFT+GRPO框架,旨在诱导这种思维模式。这两种方法都产生了显著的性能提升,并有效地推广到协作推理任务。总的来说,我们的发现强调了跨模态共指是推进鲁棒全模态推理的关键缺失部分。

🔬 方法详解

问题定义:论文旨在解决Omni-LLM在跨模态推理中存在的跨模态共指对齐问题。现有方法通常侧重于全局多模态上下文理解,而忽略了细粒度的跨模态指称对象识别,导致模型在需要协同推理的复杂场景中表现不佳。这种忽略使得模型难以在不同模态之间建立可靠的关联,阻碍了全模态推理能力的提升。

核心思路:论文的核心思路是将跨模态共指问题形式化,并将其视为一个需要在源模态中定位指称对象并在目标模态中重新识别它的过程。通过显式地建模跨模态指称关系,可以增强模型对不同模态之间关联的理解,从而提升其推理能力。这种形式化为后续的评估和改进提供了基础。

技术框架:论文提出了CrossOmni数据集,包含九个任务,用于评估和增强模型的跨模态共指能力。同时,论文提出了两种方法来提升跨模态对齐:1) 免训练的上下文学习方法,通过提供包含共指信息的上下文示例来引导模型进行推理;2) 基于训练的SFT+GRPO框架,通过监督微调(SFT)和基于梯度策略优化的强化学习(GRPO)来诱导模型学习共指感知的思维模式。

关键创新:论文的关键创新在于:1) 首次将跨模态共指问题形式化,并强调其在全模态推理中的重要性;2) 构建了CrossOmni数据集,为评估和提升跨模态共指能力提供了基准;3) 提出了免训练和基于训练的两种方法,有效提升了模型在跨模态共指任务上的性能。

关键设计:CrossOmni数据集包含九个任务,涵盖了不同的模态组合和推理场景,并提供了人工设计的推理原理。SFT+GRPO框架使用监督微调来初始化模型,然后使用强化学习来优化模型的推理策略,使其更符合共指感知的思维模式。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的Omni-LLM在CrossOmni数据集上表现出明显的跨模态共指弱点。通过提出的免训练上下文学习和基于训练的SFT+GRPO框架,模型在跨模态共指任务上取得了显著的性能提升,并且能够泛化到协作推理任务。具体的性能提升幅度在论文中进行了详细的量化分析(未知)。

🎯 应用场景

该研究成果可应用于智能助手、多模态机器人、跨媒体信息检索等领域。例如,智能助手可以利用跨模态共指能力更好地理解用户的指令,多模态机器人可以更准确地识别和操作环境中的物体,跨媒体信息检索可以更有效地关联不同模态的信息。

📄 摘要(原文)

Omni Large Language Models (Omni-LLMs) have demonstrated impressive capabilities in holistic multi-modal perception, yet they consistently falter in complex scenarios requiring synergistic omni-modal reasoning. Beyond understanding global multimodal context, effective reasoning also hinges on fine-grained cross-modal alignment, especially identifying shared referents across modalities, yet this aspect has been largely overlooked. To bridge this gap, we formalize the challenge as a cross-modal coreference problem, where a model must localize a referent in a source modality and re-identify it in a target modality. Building on this paradigm, we introduce CrossOmni, a dataset comprising nine tasks equipped with human-designed reasoning rationales to evaluate and enhance this capability. Experiments on 13 Omni-LLMs reveal systematic weaknesses in cross-modal coreference, which we attribute to the absence of coreference-aware thinking patterns. To address this, we enhance cross-modal alignment via two strategies: a training-free In-Context Learning method and a training-based SFT+GRPO framework designed to induce such thinking patterns. Both approaches yield substantial performance gains and generalize effectively to collaborative reasoning tasks. Overall, our findings highlight cross-modal coreference as a crucial missing piece for advancing robust omni-modal reasoning.