Adapting Point Cloud Analysis via Multimodal Bayesian Distribution Learning
作者: Xingyu Zhu, Liang Yi, Shuo Wang, Wenbo Zhu, Yonglinag Wu, Beier Zhu, Hanwang Zhang
分类: cs.CV
发布日期: 2026-03-23
备注: CVPR 2026
💡 一句话要点
提出BayesMM,通过多模态贝叶斯分布学习实现点云分析的测试时自适应。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 点云分析 测试时自适应 多模态学习 贝叶斯模型平均 领域自适应
📋 核心要点
- 现有测试时自适应方法依赖缓存机制,但存储信息有限,导致信息逐步丢失,且预测融合方式不稳定。
- BayesMM将文本先验和视觉特征建模为高斯分布,通过贝叶斯模型平均融合,实现持续自适应。
- 实验表明,BayesMM在分布偏移下表现出鲁棒性,并在多个点云基准测试中平均提升超过4%。
📝 摘要(中文)
多模态3D视觉-语言模型在各种3D任务中表现出强大的泛化能力,但其性能在领域偏移下仍然会显著下降。这促使了最近对测试时自适应(TTA)的研究,它使模型能够使用测试时数据进行在线自适应。在现有的TTA方法中,基于缓存的机制被广泛采用,以利用先前观察到的样本进行在线预测优化。然而,它们只存储有限的历史信息,导致测试流演进时信息的逐步丢失。此外,它们的预测logits是启发式融合的,使得自适应不稳定。为了解决这些局限性,我们提出了BayesMM,一个用于测试时点云分析的多模态贝叶斯分布学习框架。BayesMM将每个类别的文本先验和流式视觉特征建模为高斯分布:文本参数从语义提示中导出,而视觉参数随着到达的样本在线更新。两种模态通过贝叶斯模型平均进行融合,贝叶斯模型平均会根据后验证据自动调整它们的贡献,从而产生一个统一的预测,该预测可以持续适应不断演进的测试时数据而无需训练。在多个点云基准上的大量实验表明,BayesMM在分布偏移下保持了鲁棒性,产生了超过4%的平均改进。
🔬 方法详解
问题定义:论文旨在解决点云分析中,多模态模型在测试时遇到领域偏移导致性能下降的问题。现有基于缓存的测试时自适应方法,由于历史信息存储有限以及预测融合方式的启发式,导致信息丢失和自适应不稳定。
核心思路:论文的核心思路是将每个类别的文本先验知识和流式的视觉特征分别建模成高斯分布,然后利用贝叶斯模型平均的方法将两种模态的信息进行融合。这样可以充分利用文本的语义信息,同时根据后验概率动态调整两种模态的贡献,从而实现更稳定和有效的自适应。
技术框架:BayesMM框架主要包含以下几个模块:1) 文本先验建模:利用语义提示(semantic prompts)提取文本特征,并将其参数化为高斯分布。2) 视觉特征建模:对输入的点云数据提取视觉特征,并随着新样本的到来在线更新高斯分布的参数。3) 贝叶斯模型平均:利用贝叶斯模型平均方法,根据后验概率将文本和视觉模态的信息进行融合,得到最终的预测结果。
关键创新:最重要的创新点在于将多模态信息建模为概率分布,并使用贝叶斯模型平均进行融合。与传统的启发式融合方法相比,贝叶斯模型平均能够根据数据的后验概率自动调整不同模态的权重,从而实现更鲁棒的自适应。此外,在线更新视觉特征的高斯分布参数,使得模型能够持续学习和适应新的测试数据。
关键设计:文本先验的高斯分布参数通过语义提示学习得到。视觉特征的高斯分布参数通过在线更新的方式进行估计,例如可以使用指数移动平均(EMA)来平滑参数的更新。贝叶斯模型平均中的权重计算依赖于后验概率的估计,可以使用变分推断等方法进行近似计算。损失函数的设计目标是最大化后验概率,可以使用负对数似然损失等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BayesMM在多个点云基准测试中表现出色,平均提升超过4%。尤其是在存在领域偏移的情况下,BayesMM的鲁棒性明显优于其他测试时自适应方法。这些结果验证了BayesMM在实际应用中的潜力。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、三维场景理解等领域。在这些场景中,模型需要处理来自不同环境和传感器的点云数据,而领域偏移是常见的问题。BayesMM提供的测试时自适应能力可以提高模型在这些实际应用中的鲁棒性和准确性,具有重要的实际价值和应用前景。
📄 摘要(原文)
Multimodal 3D vision-language models show strong generalization across diverse 3D tasks, but their performance still degrades notably under domain shifts. This has motivated recent studies on test-time adaptation (TTA), which enables models to adapt online using test-time data. Among existing TTA methods, cache-based mechanisms are widely adopted for leveraging previously observed samples in online prediction refinement. However, they store only limited historical information, leading to progressive information loss as the test stream evolves. In addition, their prediction logits are fused heuristically, making adaptation unstable. To address these limitations, we propose BayesMM, a Multimodal Bayesian Distribution Learning framework for test-time point cloud analysis. BayesMM models textual priors and streaming visual features of each class as Gaussian distributions: textual parameters are derived from semantic prompts, while visual parameters are updated online with arriving samples. The two modalities are fused via Bayesian model averaging, which automatically adjusts their contributions based on posterior evidence, yielding a unified prediction that adapts continually to evolving test-time data without training. Extensive experiments on multiple point cloud benchmarks demonstrate that BayesMM maintains robustness under distributional shifts, yielding over 4% average improvement.