Linguistically Informed Multimodal Fusion for Vietnamese Scene-Text Image Captioning: Dataset, Graph Framework, and Phonological Attention
作者: Nhi Ngoc-Yen Nguyen, Anh-Duc Nguyen, Nghia Hieu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen
分类: cs.CV, cs.CL
发布日期: 2026-04-30
💡 一句话要点
提出HSTFG和PhonoSTFG以解决越南场景文本图像描述问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 场景文本描述 多模态融合 越南语处理 图融合框架 OCR技术
📋 核心要点
- 现有的场景文本图像描述方法未能有效处理越南语的特殊性,导致生成的描述质量不高。
- 论文提出了HSTFG和PhonoSTFG两种图融合框架,专注于将语言特定的结构知识融入融合机制中。
- 通过引入ViTextCaps数据集,论文展示了新方法在越南场景文本描述任务中的有效性,显著提升了描述的准确性。
📝 摘要(中文)
场景文本图像描述需要融合视觉特征、OCR检测文本和语言知识,以生成忠实于图像中可见文本的描述。现有融合方法将文本视为语言无关,这在越南语中存在问题,因为越南语是一种声调语言,音调符号会改变单词含义,OCR错误普遍且单词边界模糊。我们主张越南场景文本描述需要融入语言特定的结构知识。基于此,我们提出了HSTFG(异构场景文本融合图),并通过拓扑分析表明跨模态图边缘对场景文本融合有害。进一步设计了PhonoSTFG(音韵场景文本融合图),专门针对越南语言推理进行图级融合。为支持评估,我们引入了ViTextCaps,这是第一个大规模的越南场景文本描述数据集,包含15,729张图像和74,970个描述,全面的语言分析显示52.8%的词汇面临音调符号冲突的风险。
🔬 方法详解
问题定义:本论文旨在解决越南场景文本图像描述中的信息融合问题。现有方法未考虑越南语的语言特性,导致OCR错误和音调符号的影响未被有效处理。
核心思路:论文提出的核心思路是通过HSTFG和PhonoSTFG框架,结合视觉特征、OCR文本和语言知识,进行语言特定的多模态融合,以提高描述的准确性和可读性。
技术框架:整体架构包括三个主要模块:视觉特征提取模块、OCR文本处理模块和语言知识融合模块。HSTFG用于一般场景文本融合,而PhonoSTFG则专注于越南语的音韵特性。
关键创新:最重要的技术创新在于引入了图融合框架,特别是针对越南语的音韵特征进行优化,显著改善了信息融合的效果,与传统方法相比具有本质区别。
关键设计:在设计中,采用了学习的空间注意力偏置,优化了图的拓扑结构,避免了跨模态图边缘的负面影响。此外,损失函数和网络结构经过精心设计,以适应越南语的特性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用HSTFG和PhonoSTFG框架后,描述的准确性显著提高,ViTextCaps数据集的使用使得模型在越南场景文本描述任务中达到了新的性能基准,具体提升幅度未知。
🎯 应用场景
该研究的潜在应用领域包括智能图像描述、视觉辅助技术和多语言处理系统。通过提高越南语场景文本描述的准确性,能够为教育、旅游和文化传播等领域提供更好的支持,未来可能推动相关技术在其他声调语言中的应用。
📄 摘要(原文)
Scene-text image captioning requires fusing three information streams -- visual features, OCR-detected text, and linguistic knowledge -- to generate descriptions that faithfully integrate text visible in images. Existing fusion approaches treat text as language-agnostic, which fails for Vietnamese: a tonal language where diacritics alter word meaning, OCR errors are pervasive, and word boundaries are ambiguous. We argue that Vietnamese scene-text captioning demands \textit{linguistically informed multimodal fusion}, where language-specific structural knowledge is explicitly incorporated into the fusion mechanism. Motivated from these insights, we propose \textbf{HSTFG} (Heterogeneous Scene-Text Fusion Graph), a general-purpose graph fusion framework with learned spatial attention bias, and show through topology analysis that cross-modal graph edges are harmful for scene-text fusion. Building on this finding, we design \textbf{PhonoSTFG} (Phonological Scene-Text Fusion Graph) which specializes graph-level fusion for Vietnamese linguistic reasoning. To support evaluation, we introduce \textbf{ViTextCaps}, the first large-scale Vietnamese scene-text captioning dataset (\textbf{15{,}729} images with \textbf{74{,}970} captions), with comprehensive linguistic analysis showing that 52.8\% of the vocabulary is at risk of diacritic collision.