Evaluating Stochastic Collapse and Implicit Bias in Multimodal Large Language Models
作者: Huiyuan Zheng, Houtao Zhang, Boyang Wang, Qingyi Si, Hongcheng Guo
分类: cs.CL
发布日期: 2026-06-04
💡 一句话要点
提出RandomBench以评估多模态大语言模型的随机性与隐含偏差问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 随机性评估 逻辑中立 分布偏差 随机崩溃 模型评估 熵量化
📋 核心要点
- 现有的多模态大语言模型评估方法主要关注效用,忽视了逻辑中立场景下的模型行为,导致模型在多选项决策中的表现不佳。
- 本文提出了RandomBench基准,旨在评估MLLMs在选择等效选项时的分布中立性,设计了RI、BCI和BII等度量指标来量化模型的随机性和偏差。
- 实验结果显示,MLLMs在随机指令下出现随机崩溃现象,top-1概率显著偏离理想值,且这一现象在多种语言和格式中均存在,表明其普遍性。
📝 摘要(中文)
当前对多模态大语言模型(MLLMs)的评估主要集中在效用驱动的目标上,而在逻辑中立场景下的模型行为却鲜有探讨。随机性在多个有效行动并存的场景中至关重要,例如推荐旅行行程或日常安排。在这些情况下,确定性策略可能导致重复行为和有效选项覆盖率降低。为此,本文提出了RandomBench,一个旨在评估MLLMs在选择等效选项时是否能保持分布中立行为的基准。我们还引入了三个度量指标RI、BCI和BII,以量化熵和分布偏差。实验揭示了一种普遍现象,称为随机崩溃,表明MLLMs在明确随机指令下未能保持均匀随机性,导致top-1概率达到97%,而RI降至0.068。大量消融研究进一步表明,这些偏差在不同语言和表示格式中普遍存在,突显了逻辑中立决策环境中分布崩溃的鲁棒性。
🔬 方法详解
问题定义:本文旨在解决多模态大语言模型在逻辑中立场景下的随机性评估问题。现有方法过于依赖效用,导致模型在选择多个有效选项时表现不佳,容易产生重复行为。
核心思路:论文提出RandomBench基准,通过评估模型在选择等效选项时的分布中立性,来揭示模型在随机性方面的不足。设计RI、BCI和BII等指标,以量化模型的熵和分布偏差。
技术框架:整体架构包括数据收集、模型评估和结果分析三个主要模块。首先收集多模态数据,然后通过RandomBench对模型进行评估,最后分析模型在不同场景下的表现。
关键创新:最重要的创新在于引入了随机崩溃的概念,揭示了MLLMs在明确随机指令下未能保持均匀随机性的现象。这与现有方法的主要区别在于关注点从效用转向了模型的随机性和分布偏差。
关键设计:在实验中,设置了多个参数以评估模型的随机性,采用了特定的损失函数来优化模型的输出分布,确保评估的准确性和有效性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,MLLMs在随机指令下出现随机崩溃现象,top-1概率达到97%,而理想基线为25%。RI指标降至0.068,表明模型在保持随机性方面存在显著偏差。这一现象在多种语言和表示格式中均得到验证,突显了问题的普遍性。
🎯 应用场景
该研究的潜在应用领域包括智能推荐系统、自动化调度和决策支持工具等。通过提升模型在逻辑中立场景下的表现,可以更好地满足用户需求,提高系统的灵活性和适应性,未来可能对多模态交互和人机协作产生深远影响。
📄 摘要(原文)
Current evaluations for Multimodal Large Language Models (MLLMs) overwhelmingly focus on utility-driven objectives, leaving model behavior under logic-neutral scenarios largely underexplored. Stochasticity is essential in scenarios where multiple actions are equally valid, such as recommending travel itineraries or daily schedules where multiple options have similar utility. In such settings, deterministic policies may lead to repetitive behaviors and reduced coverage of valid alternatives. To bridge this gap, we propose RandomBench, a benchmark designed to evaluate whether MLLMs can maintain distributionally neutral behavior when selecting among equivalent options. We further introduce three metrics, including RI, BCI, BII, to quantify entropy and distributional bias. Experiments reveal a pervasive phenomenon termed Stochastic Collapse, where MLLMs fail to maintain uniform randomness under explicit random instructions, with top-1 probabilities reaching 97% from the ideal one quarter baseline and RI dropping to 0.068 in Claude Sonnet 4.6. Extensive ablation studies further demonstrate that these deviations persist across languages and representation formats, highlighting the robustness of distributional collapse in logic-neutral decision settings.