Unlocking Cognitive Capabilities and Analyzing the Perception-Logic Trade-off
作者: Longyin Zhang, Shuo Sun, Yingxu He, Won Cheng Yi Lewis, Muhammad Huzaifah Bin Md Shahrin, Hardik Bhupendra Sailor, Heng Meng Jeremy Wong, Tarun Kumar Vangani, Yi Ma, Qiongqiong Wang, Minh Duc Pham, Ridong Jiang, Jingtao Li, Jingyi Liao, Zhuohan Liu, Yanfeng Lu, Manas Gupta, Ai Ti Aw
分类: cs.AI
发布日期: 2026-02-27
💡 一句话要点
提出MERaLiON2-Omni以解决东南亚多模态感知与推理的挑战
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大型语言模型 感知与推理 渐进式训练 东南亚 生成-判断-精炼 效率-稳定性悖论 文化适应性 认知能力
📋 核心要点
- 现有多模态大型语言模型在感知与推理的整合上存在挑战,尤其是在东南亚地区的应用。
- 论文提出MERaLiON2-Omni,通过渐进式训练解耦感知与推理,并利用生成-判断-精炼管道提升认知能力。
- 在SEA-Omni基准测试中,推理显著提升了抽象任务的性能,但在低级感知处理上引入了不稳定性。
📝 摘要(中文)
近年来,多模态大型语言模型(MLLMs)在追求全方位感知能力方面取得了进展,但将稳健的感知基础与复杂推理相结合仍然是一个挑战,尤其是在东南亚等欠代表性地区。本文介绍了MERaLiON2-Omni(Alpha)的研究预览,这是一个针对东南亚的10B参数多语言全感知模型。我们提出了一种渐进式训练流程,明确解耦并整合“系统1”(感知)和“系统2”(推理)能力。通过建立稳健的感知基础并利用生成-判断-精炼管道,我们在SEA-Omni基准测试中揭示了效率-稳定性悖论,推理在抽象任务中显著提升性能,但在低级感知处理上引入不稳定性。
🔬 方法详解
问题定义:本文旨在解决多模态大型语言模型在感知与推理整合中的不足,尤其是在东南亚地区的应用场景中,现有方法在处理复杂推理时常常导致感知不稳定。
核心思路:论文的核心思路是通过渐进式训练流程,明确解耦感知(系统1)与推理(系统2),并通过生成-判断-精炼管道来提升模型的认知能力,而无需大规模监督。
技术框架:整体架构包括感知基础的建立和认知能力的注入两个主要阶段。首先,通过对区域特定的音视频线索进行对齐,建立稳健的感知基础;其次,利用超大型语言模型过滤幻觉并通过共识机制解决冲突。
关键创新:最重要的技术创新在于提出了生成-判断-精炼管道,能够在低成本的情况下生成高质量的银数据,从而将文本链式推理转移到多模态场景中。
关键设计:在训练过程中,采用了区域特定的音视频线索进行正交模态适配,并设计了有效的损失函数以优化感知与推理的整合。
🖼️ 关键图片
📊 实验亮点
在SEA-Omni基准测试中,MERaLiON2-Omni在抽象任务上表现出显著的性能提升,推理能力提升了数学和指令跟随任务的表现,但在低级感知处理上出现了不稳定性,具体表现为长时音频中的时间漂移和视觉过度解释现象。
🎯 应用场景
该研究的潜在应用领域包括智能助手、教育技术和文化遗产保护等,能够为东南亚地区的多模态交互提供更为精准和稳定的支持,提升用户体验和信息获取效率。未来,该模型可能在多语言环境下的智能应用中发挥重要作用。
📄 摘要(原文)
Recent advancements in Multimodal Large Language Models (MLLMs) pursue omni-perception capabilities, yet integrating robust sensory grounding with complex reasoning remains a challenge, particularly for underrepresented regions. In this report, we introduce the research preview of MERaLiON2-Omni (Alpha), a 10B-parameter multilingual omni-perception tailored for Southeast Asia (SEA). We present a progressive training pipeline that explicitly decouples and then integrates "System 1" (Perception) and "System 2" (Reasoning) capabilities. First, we establish a robust Perception Backbone by aligning region-specific audio-visual cues (e.g., Singlish code-switching, local cultural landmarks) with a multilingual LLM through orthogonal modality adaptation. Second, to inject cognitive capabilities without large-scale supervision, we propose a cost-effective Generate-Judge-Refine pipeline. By utilizing a Super-LLM to filter hallucinations and resolve conflicts via a consensus mechanism, we synthesize high-quality silver data that transfers textual Chain-of-Thought reasoning to multimodal scenarios. Comprehensive evaluation on our newly introduced SEA-Omni Benchmark Suite reveals an Efficiency-Stability Paradox: while reasoning acts as a non-linear amplifier for abstract tasks (boosting mathematical and instruction-following performance significantly), it introduces instability in low-level sensory processing. Specifically, we identify Temporal Drift in long-context audio, where extended reasoning desynchronizes the model from acoustic timestamps, and Visual Over-interpretation, where logic overrides pixel-level reality. This report details the architecture, the data-efficient training recipe, and a diagnostic analysis of the trade-offs between robust perception and structured reasoning.