EXAONE 4.5 Technical Report

📄 arXiv: 2604.08644v1 📥 PDF

作者: Eunbi Choi, Kibong Choi, Sehyun Chun, Seokhee Hong, Junwon Hwang, Hyojin Jeon, Ahra Jo, Hyunjik Jo, Yeonsik Jo, Joonkee Kim, Seonghwan Kim, Soyeon Kim, Sunkyoung Kim, Yireun Kim, Yongil Kim, Changhun Lee, Haeju Lee, Jinsik Lee, Kyungmin Lee, Sangha Park, Kwangrok Ryoo, Minju Seo, Sejong Yang, Heuiyeen Yeen, Hwan Chang, Stanley Jungkyu Choi, Yejin Choi, Kyubeen Han, Joonwon Jang, Kijeong Jeon, Geunyeong Jeong, Gerrard Jeongwon Jo, Jiyeon Jung, Daeseong Kim, Dohoon Kim, Dohyun Kim, Hyunseo Kim, Minu Kim, Myoungshin Kim, Youchul Kim, Byungoh Ko, Christopher Lee, Edward Hwayoung Lee, Honglak Lee, Jiyoung Lee, Sangeun Lee, Seungwon Lim, Woohyung Lim, Jueun Mun, Jaewoo Park, Jimin Park, Jinho Park, Yongmin Park, Wooseok Seo, Yongwoo Song, Sihyuk Yi, Kyungjae Yoo, Sangyeon Yoon

分类: cs.CL

发布日期: 2026-04-09


💡 一句话要点

LG AI Research发布EXAONE 4.5,首个开源权重视觉语言模型,提升文档理解与长文本推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 多模态学习 文档理解 长文本推理 企业级应用 预训练模型 韩语处理

📋 核心要点

  1. 现有视觉语言模型在文档理解和长文本推理方面存在不足,难以满足企业级应用需求。
  2. EXAONE 4.5通过集成专用视觉编码器和优化文档中心语料库,实现原生多模态预训练,提升文档理解能力。
  3. 实验结果表明,EXAONE 4.5在文档理解和韩语上下文推理方面优于同等规模的SOTA模型,并支持256K tokens长文本。

📝 摘要(中文)

本技术报告介绍了EXAONE 4.5,这是LG AI Research发布的第一个开源权重的视觉语言模型。EXAONE 4.5通过将专用视觉编码器集成到现有的EXAONE 4.0框架中,实现了视觉和文本模态的原生多模态预训练。该模型在经过精心策划的大规模数据上进行训练,特别强调了以文档为中心的语料库,这与LG的战略应用领域相一致。这种有针对性的数据设计显著提高了文档理解和相关任务的性能,同时也全面提升了一般的语言能力。EXAONE 4.5将上下文长度扩展到256K tokens,从而促进了长上下文推理和企业级用例。对比评估表明,EXAONE 4.5在通用基准测试中取得了具有竞争力的性能,同时在文档理解和韩语上下文推理方面优于同等规模的先进模型。作为LG为实际工业部署所做的持续努力的一部分,EXAONE 4.5旨在通过额外的领域和应用场景不断扩展,以推进人工智能,创造更美好的生活。

🔬 方法详解

问题定义:现有视觉语言模型在处理文档理解任务时,往往缺乏对文档结构和语义的深入理解,尤其是在长文档的上下文推理方面表现不足。此外,对于特定领域(如企业级应用)的文档,通用模型的性能往往难以满足需求。

核心思路:EXAONE 4.5的核心思路是将视觉信息与文本信息进行原生融合,通过多模态预训练,使模型能够更好地理解文档的结构和语义。同时,通过精心策划的、以文档为中心的大规模数据集进行训练,使模型能够更好地适应特定领域的应用。

技术框架:EXAONE 4.5的整体架构是在EXAONE 4.0的基础上,集成了一个专用的视觉编码器。该视觉编码器负责提取图像特征,然后将图像特征与文本特征进行融合,输入到Transformer解码器中进行处理。整个流程包括数据预处理、视觉编码、文本编码、多模态融合和解码等阶段。

关键创新:EXAONE 4.5的关键创新在于原生多模态预训练和对文档中心语料库的强调。原生多模态预训练使得模型能够更好地学习视觉和文本之间的关联,从而提高文档理解能力。对文档中心语料库的强调使得模型能够更好地适应特定领域的应用。

关键设计:EXAONE 4.5的关键设计包括:(1) 专用的视觉编码器,用于提取图像特征;(2) 多模态融合模块,用于融合视觉和文本特征;(3) 大规模的、以文档为中心的训练数据集;(4) 上下文长度扩展到256K tokens,支持长文本推理。具体参数设置和损失函数等细节在报告中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

EXAONE 4.5在通用基准测试中取得了具有竞争力的性能,同时在文档理解和韩语上下文推理方面优于同等规模的SOTA模型。尤其是在文档理解任务上,EXAONE 4.5表现出显著的优势,证明了其在处理文档相关任务方面的强大能力。具体性能数据和提升幅度在报告中未详细说明,属于未知信息。

🎯 应用场景

EXAONE 4.5在企业级文档处理、知识图谱构建、智能客服、金融报告分析等领域具有广泛的应用前景。该模型能够提升文档理解的准确性和效率,降低人工成本,并为企业提供更智能化的决策支持。未来,EXAONE 4.5有望成为企业数字化转型的重要基础设施。

📄 摘要(原文)

This technical report introduces EXAONE 4.5, the first open-weight vision language model released by LG AI Research. EXAONE 4.5 is architected by integrating a dedicated visual encoder into the existing EXAONE 4.0 framework, enabling native multimodal pretraining over both visual and textual modalities. The model is trained on large-scale data with careful curation, particularly emphasizing document-centric corpora that align with LG's strategic application domains. This targeted data design enables substantial performance gains in document understanding and related tasks, while also delivering broad improvements across general language capabilities. EXAONE 4.5 extends context length up to 256K tokens, facilitating long-context reasoning and enterprise-scale use cases. Comparative evaluations demonstrate that EXAONE 4.5 achieves competitive performance in general benchmarks while outperforming state-of-the-art models of similar scale in document understanding and Korean contextual reasoning. As part of LG's ongoing effort toward practical industrial deployment, EXAONE 4.5 is designed to be continuously extended with additional domains and application scenarios to advance AI for a better life.