Multi-Modal LLM based Image Captioning in ICT: Bridging the Gap Between General and Industry Domain
作者: Lianying Chao, Haoran Cai, Xubin Li, Kai Zhang, Sijie Wu, Rui Xu
分类: cs.CV
发布日期: 2026-01-14
期刊: 2025 CCF BigData
💡 一句话要点
提出多阶段渐进式训练的ICT领域图像描述模型,提升领域知识理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 图像描述 领域知识 渐进式训练 信息通信技术 视觉问答 大型语言模型
📋 核心要点
- 现有方法难以有效利用ICT领域图像中蕴含的知识,限制了领域LLM的训练和应用。
- 提出多阶段渐进式训练策略,结合LLM合成数据、专家标注和视觉问答数据,提升模型领域知识。
- 实验表明,仅7B参数的DICModel性能优于32B参数的SOTA模型,BLEU指标显著提升。
📝 摘要(中文)
在信息与通信技术(ICT)行业中,训练领域特定的大型语言模型(LLM)或构建检索增强生成系统需要大量高价值的领域知识。这些知识不仅隐藏在文本模态中,也存在于图像模态中。传统方法可以解析领域文档中的文本,但不具备图像描述能力。多模态LLM(MLLM)可以理解图像,但缺乏足够的领域知识。为了解决上述问题,本文提出了一种多阶段渐进式训练策略,用于训练ICT领域的领域特定图像描述模型(DICModel),并构建了一个标准评估系统来验证DICModel的性能。具体而言,该工作首先结合Mermaid工具和LLM合成了约7K个图像-文本对,用于DICModel的第一阶段监督微调(SFT)。然后,ICT领域的专家手动标注了约2K个图像-文本对,用于DICModel的第二阶段SFT。最后,专家和LLM共同合成了约1.5K个视觉问答数据,用于基于指令的SFT。实验结果表明,我们仅有7B参数的DICModel的性能优于其他具有32B参数的先进模型。与具有7B和32B参数的SOTA模型相比,我们的DICModel的BLEU指标分别提高了约56.8%和20.8%。在ICT领域专家构建的客观问题上,我们的DICModel在准确率方面优于Qwen2.5-VL 32B 1%。总而言之,这项工作可以高效、准确地从图像中提取逻辑文本,有望促进ICT领域多模态模型的发展。
🔬 方法详解
问题定义:现有方法在ICT领域中,无法有效利用图像模态中蕴含的领域知识。传统方法侧重于文本解析,而通用多模态LLM缺乏足够的领域知识,导致无法准确理解和描述ICT领域图像,阻碍了领域特定LLM的训练和检索增强生成系统的构建。
核心思路:论文的核心思路是通过多阶段渐进式训练,逐步将领域知识注入到图像描述模型中。首先利用LLM和Mermaid工具合成初步的图像-文本数据,然后通过领域专家标注高质量数据,最后利用视觉问答数据进行指令微调,从而使模型能够准确理解和描述ICT领域图像。
技术框架:DICModel的训练框架包含三个主要阶段: 1. 第一阶段:LLM合成数据微调。使用Mermaid工具和LLM自动生成约7K个图像-文本对,用于模型的初步训练,使其具备基本的图像描述能力。 2. 第二阶段:专家标注数据微调。领域专家手动标注约2K个高质量的图像-文本对,用于提升模型在ICT领域的知识水平和描述准确性。 3. 第三阶段:视觉问答数据微调。专家和LLM共同生成约1.5K个视觉问答数据,用于指令微调,增强模型的推理和问答能力。
关键创新:该论文的关键创新在于提出了一个多阶段渐进式训练策略,该策略有效地结合了LLM的生成能力、领域专家的知识和视觉问答的推理能力,从而训练出一个高性能的领域特定图像描述模型。与传统的单阶段训练或仅依赖通用数据的训练方法相比,该方法能够更好地利用领域知识,提升模型的性能。
关键设计: 1. 数据合成:使用Mermaid工具生成流程图、时序图等ICT领域常见的图像类型,并利用LLM生成对应的文本描述。 2. 数据标注:领域专家对合成数据进行审核和修正,确保数据的质量和准确性。 3. 视觉问答数据生成:设计包含不同难度和类型的视觉问答题目,涵盖ICT领域的关键概念和技术。 4. 模型选择:选择一个具有较强图像理解能力的预训练多模态模型作为基础模型,例如LLaVA等。 5. 损失函数:使用交叉熵损失函数进行监督微调,并根据不同阶段的数据特点调整损失权重。
📊 实验亮点
实验结果表明,DICModel在ICT领域图像描述任务上取得了显著的性能提升。与7B和32B参数的SOTA模型相比,DICModel的BLEU指标分别提高了约56.8%和20.8%。在ICT领域专家构建的客观问题上,DICModel的准确率优于Qwen2.5-VL 32B 1%,证明了该模型在领域知识理解方面的优势。
🎯 应用场景
该研究成果可应用于ICT领域知识图谱构建、智能文档处理、故障诊断与维护等场景。通过自动提取图像中的逻辑文本,可以提升领域知识获取效率,辅助工程师进行设计、分析和决策,并为智能客服、自动化运维等应用提供支持,具有重要的实际应用价值。
📄 摘要(原文)
In the information and communications technology (ICT) industry, training a domain-specific large language model (LLM) or constructing a retrieval-augmented generation system requires a substantial amount of high-value domain knowledge. However, the knowledge is not only hidden in the textual modality but also in the image modality. Traditional methods can parse text from domain documents but dont have image captioning ability. Multi-modal LLM (MLLM) can understand images, but they do not have sufficient domain knowledge. To address the above issues, this paper proposes a multi-stage progressive training strategy to train a Domain-specific Image Captioning Model (DICModel) in ICT, and constructs a standard evaluation system to validate the performance of DICModel. Specifically, this work first synthesizes about 7K image-text pairs by combining the Mermaid tool and LLMs, which are used for the first-stage supervised-fine-tuning (SFT) of DICModel. Then, ICT-domain experts manually annotate about 2K image-text pairs for the second-stage SFT of DICModel. Finally, experts and LLMs jointly synthesize about 1.5K visual question answering data for the instruction-based SFT. Experimental results indicate that our DICModel with only 7B parameters performs better than other state-of-the-art models with 32B parameters. Compared to the SOTA models with 7B and 32B parameters, our DICModel increases the BLEU metric by approximately 56.8% and 20.8%, respectively. On the objective questions constructed by ICT domain experts, our DICModel outperforms Qwen2.5-VL 32B by 1% in terms of accuracy rate. In summary, this work can efficiently and accurately extract the logical text from images, which is expected to promote the development of multimodal models in the ICT domain.