GT-PCQA: Geometry-Texture Decoupled Point Cloud Quality Assessment with MLLM

📄 arXiv: 2603.14951v1 📥 PDF

作者: Guohua Zhang, Jian Jin, Meiqin Liu, Chao Yao, Weisi Lin, Yao Zhao

分类: cs.CV

发布日期: 2026-03-16


💡 一句话要点

提出GT-PCQA,利用MLLM解决点云质量评估中几何结构敏感性不足的问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 点云质量评估 多模态大语言模型 几何-纹理解耦 2D-3D联合训练 指令微调 低秩适应 无参考质量评估

📋 核心要点

  1. 现有PCQA数据集规模小,难以有效微调MLLM,且MLLM更关注纹理信息,对几何结构退化不敏感。
  2. 提出GT-PCQA,采用2D-3D联合训练策略,利用相对质量比较统一IQA和PCQA数据,并使用LoRA进行高效微调。
  3. 引入几何-纹理解耦策略,通过双提示机制和交替优化,减轻MLLM的纹理偏见,提升对几何结构的敏感性。

📝 摘要(中文)

随着多模态大型语言模型(MLLM)的快速发展,基于MLLM的图像质量评估(IQA)方法显示出良好的泛化能力。然而,直接将这些基于MLLM的IQA方法扩展到点云质量评估(PCQA)仍然具有挑战性。一方面,现有的PCQA数据集规模有限,阻碍了MLLM稳定有效的指令微调。另一方面,由于大规模的图像-文本预训练,MLLM倾向于依赖纹理主导的推理,对PCQA至关重要的几何结构退化不够敏感。为了解决这些问题,我们提出了一种新的基于MLLM的无参考PCQA框架,称为GT-PCQA,它建立在两个关键策略之上。首先,为了在稀缺的PCQA监督下实现稳定有效的指令微调,提出了一种2D-3D联合训练策略。该策略将PCQA表述为一个相对质量比较问题,以统一大规模IQA数据集和有限的PCQA数据集。它结合了一种参数高效的低秩适应(LoRA)方案来支持指令微调。其次,提出了一种几何-纹理解耦策略,该策略集成了双提示机制和交替优化方案,以减轻预训练MLLM固有的纹理主导偏差,同时增强对几何结构退化的敏感性。大量的实验表明,GT-PCQA取得了有竞争力的性能,并表现出很强的泛化能力。

🔬 方法详解

问题定义:现有基于MLLM的点云质量评估方法在小规模数据集上难以有效微调,并且由于MLLM在图像-文本预训练中对纹理信息的过度依赖,导致其对点云几何结构的退化不够敏感。这限制了MLLM在PCQA任务中的应用,无法准确评估点云的质量。

核心思路:GT-PCQA的核心思路是通过2D-3D联合训练和几何-纹理解耦来解决上述问题。2D-3D联合训练利用大规模图像质量评估数据来辅助点云质量评估模型的训练,缓解了点云数据稀缺的问题。几何-纹理解耦旨在减轻MLLM对纹理信息的偏见,使其更加关注点云的几何结构。

技术框架:GT-PCQA框架主要包含两个关键模块:2D-3D联合训练模块和几何-纹理解耦模块。2D-3D联合训练模块将PCQA任务转化为相对质量比较问题,并利用LoRA进行参数高效的微调。几何-纹理解耦模块则通过双提示机制和交替优化来增强模型对几何结构的敏感性。

关键创新:GT-PCQA的关键创新在于其几何-纹理解耦策略。该策略通过引入几何提示和纹理提示,并采用交替优化方法,使得模型能够分别学习几何和纹理特征,从而减轻了MLLM固有的纹理偏见,提高了对几何结构退化的敏感性。这种解耦方法使得模型能够更准确地评估点云的质量。

关键设计:在2D-3D联合训练中,使用了相对质量比较损失函数,鼓励模型学习不同质量点云之间的相对关系。在几何-纹理解耦中,采用了双提示机制,分别输入几何提示和纹理提示,并通过交替优化来更新模型的参数。LoRA被用于参数高效的微调,减少了计算资源的消耗。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,GT-PCQA在点云质量评估任务上取得了有竞争力的性能,并且表现出很强的泛化能力。通过2D-3D联合训练和几何-纹理解耦,GT-PCQA能够更准确地评估点云的质量,尤其是在几何结构退化的情况下。具体性能数据和对比基线信息在论文中详细给出。

🎯 应用场景

GT-PCQA可应用于自动驾驶、三维重建、虚拟现实等领域,用于评估点云数据的质量,从而提高相关应用的性能和用户体验。例如,在自动驾驶中,可以利用GT-PCQA评估激光雷达点云的质量,确保感知系统的准确性和可靠性。在三维重建中,可以评估重建点云的质量,优化重建算法。

📄 摘要(原文)

With the rapid advancement of Multi-modal Large Language Models (MLLMs), MLLM-based Image Quality Assessment (IQA) methods have shown promising generalization. However, directly extending these MLLM-based IQA methods to PCQA remains challenging. On the one hand, existing PCQA datasets are limited in scale, which hinders stable and effective instruction tuning of MLLMs. On the other hand, due to large-scale image-text pretraining, MLLMs tend to rely on texture-dominant reasoning and are insufficiently sensitive to geometric structural degradations that are critical for PCQA. To address these gaps, we propose a novel MLLM-based no-reference PCQA framework, termed GT-PCQA, which is built upon two key strategies. First, to enable stable and effective instruction tuning under scarce PCQA supervision, a 2D-3D joint training strategy is proposed. This strategy formulates PCQA as a relative quality comparison problem to unify large-scale IQA datasets with limited PCQA datasets. It incorporates a parameter-efficient Low-Rank Adaptation (LoRA) scheme to support instruction tuning. Second, a geometry-texture decoupling strategy is presented, which integrates a dual-prompt mechanism with an alternating optimization scheme to mitigate the inherent texture-dominant bias of pre-trained MLLMs, while enhancing sensitivity to geometric structural degradations. Extensive experiments demonstrate that GT-PCQA achieves competitive performance and exhibits strong generalization.