Oitijjo-3D: Generative AI Framework for Rapid 3D Heritage Reconstruction from Street View Imagery
作者: Momen Khandoker Ope, Akif Islam, Mohd Ruhul Ameen, Abu Saleh Musa Miah, Md Rashedul Islam, Jungpil Shin
分类: cs.CV, cs.AI, cs.GR
发布日期: 2025-11-01
备注: 6 Pages, 4 figures, 2 Tables, Submitted to ICECTE 2026
💡 一句话要点
Oitijjo-3D:利用街景图像的生成式AI框架,实现快速3D遗产重建
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D重建 文化遗产保护 生成式AI 街景图像 神经渲染
📋 核心要点
- 传统3D数字化方法(如摄影测量或LiDAR扫描)成本高昂,需要专业人员和现场访问,在发展中国家难以实施。
- Oitijjo-3D利用公开的街景图像,通过多模态视觉推理和神经图像到3D生成,实现快速、低成本的3D遗产重建。
- 实验表明,Oitijjo-3D在视觉和结构保真度方面表现良好,且显著降低了经济和技术门槛,加速了重建过程。
📝 摘要(中文)
本文提出Oitijjo-3D,一个免费的生成式AI框架,旨在普及3D文化遗产保护。针对孟加拉国文化遗产修复面临的资源和技术短缺双重挑战,该框架利用公开的谷歌街景图像,通过一个两阶段流程重建遗产建筑的3D模型。第一阶段,使用Gemini 2.5 Flash Image进行多模态视觉推理,合成结构纹理;第二阶段,通过Hexagen进行神经图像到3D的生成,恢复几何结构。该系统无需专业硬件或专家监督,即可在数秒内生成照片级真实、度量一致的重建结果,相比传统的SfM流程显著提速。在Ahsan Manzil、Choto Sona Mosque和Paharpur等标志性建筑上的实验表明,Oitijjo-3D在大幅降低经济和技术门槛的同时,保留了视觉和结构保真度。该工作将开放图像转化为数字遗产,将保护重新定义为一种社区驱动、AI辅助的文化延续行为,尤其适用于资源有限的国家。
🔬 方法详解
问题定义:论文旨在解决发展中国家文化遗产数字化保护中,由于资源和技术限制,传统3D重建方法难以应用的问题。现有方法如摄影测量和LiDAR扫描,需要昂贵的设备、专业知识和大量的现场数据采集,这对于资源匮乏的地区来说是巨大的挑战。因此,许多珍贵的文化遗产面临着损毁的风险,且无法以数字形式保存。
核心思路:论文的核心思路是利用公开可用的谷歌街景图像,结合生成式AI技术,构建一个低成本、易于使用的3D重建框架。通过AI自动分析街景图像,提取建筑物的结构和纹理信息,并生成高质量的3D模型,从而降低对专业设备和人员的依赖。
技术框架:Oitijjo-3D框架包含两个主要阶段:1) 多模态视觉推理与结构-纹理合成:利用Gemini 2.5 Flash Image模型,对街景图像进行分析,提取建筑物的结构特征和纹理信息,并合成高质量的纹理图像。2) 神经图像到3D生成:使用Hexagen模型,将合成的纹理图像转换为3D几何模型。整个流程无需人工干预,可以自动完成3D重建。
关键创新:该论文的关键创新在于将大型语言模型(Gemini 2.5 Flash Image)和神经渲染技术(Hexagen)相结合,实现从街景图像到3D模型的自动生成。与传统的SfM方法相比,Oitijjo-3D无需手动特征提取和匹配,大大简化了重建流程,并降低了对计算资源的需求。此外,该框架完全依赖于公开数据,无需额外的现场数据采集。
关键设计:Gemini 2.5 Flash Image模型用于提取图像中的语义信息和结构特征,并生成高质量的纹理贴图。Hexagen模型则利用这些纹理贴图,通过神经渲染技术生成3D几何模型。具体的损失函数和网络结构细节在论文中可能没有详细描述,但整体思路是利用生成式模型学习图像到3D模型的映射关系,并通过对抗训练等方法提高生成模型的质量。
🖼️ 关键图片
📊 实验亮点
论文在Ahsan Manzil、Choto Sona Mosque和Paharpur等多个地标性建筑上进行了实验,结果表明Oitijjo-3D能够生成视觉效果良好且结构保真度高的3D模型。与传统的SfM方法相比,Oitijjo-3D在重建速度上实现了显著提升,且无需专业硬件和人工干预,大大降低了重建成本和技术门槛。具体的性能数据和提升幅度在论文中可能有所体现,但摘要中强调了其在速度和成本方面的优势。
🎯 应用场景
Oitijjo-3D框架可广泛应用于文化遗产保护、城市规划、游戏开发和虚拟旅游等领域。它为资源有限的国家提供了一种低成本、高效的3D数字化解决方案,有助于保护和传承珍贵的文化遗产。此外,该技术还可以用于构建城市级别的3D模型,为城市规划和管理提供数据支持。在游戏开发和虚拟旅游领域,Oitijjo-3D可以快速生成逼真的3D场景,提升用户体验。
📄 摘要(原文)
Cultural heritage restoration in Bangladesh faces a dual challenge of limited resources and scarce technical expertise. Traditional 3D digitization methods, such as photogrammetry or LiDAR scanning, require expensive hardware, expert operators, and extensive on-site access, which are often infeasible in developing contexts. As a result, many of Bangladesh's architectural treasures, from the Paharpur Buddhist Monastery to Ahsan Manzil, remain vulnerable to decay and inaccessible in digital form. This paper introduces Oitijjo-3D, a cost-free generative AI framework that democratizes 3D cultural preservation. By using publicly available Google Street View imagery, Oitijjo-3D reconstructs faithful 3D models of heritage structures through a two-stage pipeline - multimodal visual reasoning with Gemini 2.5 Flash Image for structure-texture synthesis, and neural image-to-3D generation through Hexagen for geometry recovery. The system produces photorealistic, metrically coherent reconstructions in seconds, achieving significant speedups compared to conventional Structure-from-Motion pipelines, without requiring any specialized hardware or expert supervision. Experiments on landmarks such as Ahsan Manzil, Choto Sona Mosque, and Paharpur demonstrate that Oitijjo-3D preserves both visual and structural fidelity while drastically lowering economic and technical barriers. By turning open imagery into digital heritage, this work reframes preservation as a community-driven, AI-assisted act of cultural continuity for resource-limited nations.