3D Reconstruction and Knowledge Distillation to Improve Multi-View Image Models to Explore Spike Volume Estimation in Wheat

📄 arXiv: 2605.20940v1 📥 PDF

作者: Olivia Zumsteg, Jannis Widmer, Yann Bourdé, Norbert Kirchgessner, Andreas Hund, Lukas Roth, Paraskevi Nousi

分类: cs.CV

发布日期: 2026-05-20

备注: 8 pages, 6 figures (Appendix: 4 pages, 5 figures)


💡 一句话要点

提出基于3D重建与知识蒸馏的多视角图像小麦穗体积估计方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 小麦穗体积估计 3D重建 知识蒸馏 多视角图像 Transformer 田间表型分析

📋 核心要点

  1. 现有小麦穗体积估计方法,如LiDAR和ToF,受限于环境条件和计算成本,直接2D图像方法缺乏几何信息。
  2. 提出一种混合2D-3D方法,利用3D重建信息指导2D图像模型的训练,实现高效的图像推理。
  3. 实验结果表明,知识蒸馏后的图像模型在体积估计精度和推理速度上均优于原始模型,且减轻了体积偏差。

📝 摘要(中文)

精确估计小麦穗体积对于产量成分分析和抗逆性评估至关重要,但基于田间的测量仍然具有挑战性。主动3D传感方法(如激光雷达或飞行时间相机)对植物运动敏感或不适合户外条件,而3D重建计算成本高昂。直接2D图像处理具有计算优势,但基于图像的模型缺乏明确的几何信息。因此,我们提出了一种混合2D-3D方法,在训练期间进行知识蒸馏,同时实现高效的仅图像推理。首先,我们使用基于距离的直方图特征训练一个刚性不变点云网络,以获得姿态鲁棒的几何表示。然后,我们将3D模型与提出的多视角图像的正则化Transformer(RT)在集成架构中结合。最后,我们使用基于特征或基于标签的蒸馏将集成知识提炼到纯粹基于图像的学生模型中。两个蒸馏的RT将非蒸馏RT的平均绝对误差(MAE)从654.31 mm$^3$降低到639.93 mm$^3$和644.62 mm$^3$,并将相关性从0.76提高到0.77和0.82。同时,每个穗的推理时间从160毫秒减少到1.4毫秒。蒸馏进一步减轻了体积相关的偏差,并将图像模型的潜在表示重塑为几何感知的形状。我们的结果表明,对2D Transformer进行3D信息训练可以实现可扩展且高效的穗体积估计,从而实现高通量田间表型分析。

🔬 方法详解

问题定义:论文旨在解决小麦穗体积精确估计的问题。现有方法,如LiDAR和ToF,在田间环境下易受植物运动和光照条件影响,且成本较高。纯2D图像方法虽然计算效率高,但缺乏明确的几何信息,导致估计精度受限。因此,需要一种既能利用图像信息又能融入几何知识的方法,以实现高效且准确的体积估计。

核心思路:论文的核心思路是利用3D重建提供的几何信息来指导2D图像模型的训练,从而使图像模型能够学习到几何感知的特征表示。通过知识蒸馏,将3D模型的知识迁移到2D图像模型,使其在仅使用图像的情况下也能实现较高的体积估计精度。这种混合方法旨在结合3D重建的几何优势和2D图像处理的计算效率。

技术框架:整体框架包含三个主要阶段:1) 3D模型训练:使用基于距离直方图特征的刚性不变点云网络,从3D重建数据中学习姿态鲁棒的几何表示。2) 集成模型构建:将训练好的3D模型与提出的多视角图像正则化Transformer(RT)结合,形成一个集成模型。3) 知识蒸馏:使用特征蒸馏或标签蒸馏,将集成模型的知识迁移到纯图像的RT学生模型中。最终,使用蒸馏后的RT模型进行推理。

关键创新:论文的关键创新在于将3D重建与知识蒸馏相结合,用于提升2D图像模型的小麦穗体积估计性能。通过3D模型提供几何信息,并利用知识蒸馏将这些信息迁移到2D模型,克服了传统2D方法缺乏几何信息的缺点。此外,提出的多视角图像正则化Transformer(RT)也针对小麦穗的特点进行了优化。

关键设计:3D模型使用了基于距离直方图的特征,以实现姿态不变性。多视角图像正则化Transformer(RT)的具体结构和正则化方法未知。知识蒸馏过程中,使用了特征蒸馏和标签蒸馏两种方法,具体损失函数和蒸馏策略未知。集成的3D模型和RT的融合方式未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过知识蒸馏,图像模型的平均绝对误差(MAE)从654.31 mm$^3$降低到最低639.93 mm$^3$,相关性从0.76提高到最高0.82。同时,推理时间从160毫秒大幅减少到1.4毫秒,实现了精度和效率的双重提升。蒸馏还减轻了体积相关的偏差,使模型更准确。

🎯 应用场景

该研究成果可应用于高通量田间表型分析,加速小麦育种进程。通过快速准确地估计小麦穗体积,可以更有效地评估不同基因型小麦的产量潜力和抗逆性,从而筛选出更优良的品种。此外,该方法还可推广到其他农作物的表型分析中,提高农业生产效率。

📄 摘要(原文)

Accurate estimation of wheat spike volume is important for yield component analysis and stress resilience assessment, yet field-based measurement remains challenging. Active 3D sensing methods such as Light Detection and Ranging (LiDAR) or time-of-flight (ToF) are sensitive to plant motion or poorly suited to outdoor conditions, while 3D reconstructions are computationally expensive. Direct 2D image processing would offer computational advantages, but image-based models lack explicit geometric information. We therefore propose a hybrid 2D-3D approach with knowledge distillation during training while enabling efficient image-only inference. First, we train a rigid-invariant point cloud network using distance-based histogram features to obtain pose-robust geometric representations. We then combine the 3D model with a proposed multi-view image-based regulated Transformer (RT) in an ensemble architecture. Finally, we distill the ensemble knowledge into a purely image-based student model using either feature-based or label-based distillation. The two distilled RTs reduce the mean absolute error (MAE) from 654.31 mm$^3$ of the non-distilled RT to 639.93 mm$^3$ and 644.62 mm$^3$, and increase correlation from 0.76 to 0.77 and 0.82, respectively. At the same time, inference time is reduced from 160 ms to 1.4 ms per spike. Distillation further mitigates volume-dependent bias and reshapes the latent representation of the image model toward a geometry-aware shape. Our results demonstrate that 3D-informed training of a 2D Transformer allows for scalable and efficient spike volume estimation for high-throughput field phenotyping.