EXAONE 3.5: Series of Large Language Models for Real-world Use Cases

📄 arXiv: 2412.04862v3 📥 PDF

作者: Soyoung An, Kyunghoon Bae, Eunbi Choi, Kibong Choi, Stanley Jungkyu Choi, Seokhee Hong, Junwon Hwang, Hyojin Jeon, Gerrard Jeongwon Jo, Hyunjik Jo, Jiyeon Jung, Yountae Jung, Hyosang Kim, Joonkee Kim, Seonghwan Kim, Soyeon Kim, Sunkyoung Kim, Yireun Kim, Yongil Kim, Youchul Kim, Edward Hwayoung Lee, Haeju Lee, Honglak Lee, Jinsik Lee, Kyungmin Lee, Woohyung Lim, Sangha Park, Sooyoun Park, Yongmin Park, Sihoon Yang, Heuiyeen Yeen, Hyeongu Yun

分类: cs.CL

发布日期: 2024-12-06 (更新: 2026-01-02)

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

LG AI研究院发布EXAONE 3.5系列大语言模型,提升真实场景指令遵循能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 指令调优 长文本理解 真实场景应用 Transformer 自然语言处理 人工智能

📋 核心要点

  1. 现有大语言模型在真实场景下的指令遵循能力不足,难以满足实际应用需求。
  2. EXAONE 3.5通过指令调优,提升模型在真实场景下的指令理解和执行能力。
  3. 实验结果表明,EXAONE 3.5在多个基准测试中取得了领先或具有竞争力的性能。

📝 摘要(中文)

本技术报告介绍了LG AI研究院开发并发布的EXAONE 3.5指令调优语言模型。EXAONE 3.5语言模型提供三种配置:32B、7.8B和2.4B。这些模型具有以下突出能力:1) 在真实场景中具有卓越的指令遵循能力,在七个基准测试中取得了最高分;2) 出色的长文本理解能力,在四个基准测试中获得了最佳性能;3) 在九个通用基准测试中,与同等规模的先进开源模型相比,具有竞争力的结果。EXAONE 3.5语言模型向所有人开放,可用于研究目的,可以从https://huggingface.co/LGAI-EXAONE下载。商业用途请联系LG AI Research官方联系人:contact_us@lgresearch.ai。

🔬 方法详解

问题定义:现有的大语言模型在处理真实世界场景中的复杂指令时,往往表现出理解不足或执行偏差的问题。这主要是因为预训练数据和指令微调数据之间存在gap,导致模型难以泛化到真实场景。此外,长文本理解能力也是一个挑战,现有模型难以有效处理和利用长上下文信息。

核心思路:EXAONE 3.5的核心思路是通过高质量的指令微调数据,提升模型在真实场景下的指令遵循能力。同时,通过优化模型结构和训练方法,增强模型对长文本的理解和处理能力。

技术框架:EXAONE 3.5系列包含32B、7.8B和2.4B三种不同规模的模型。整体框架基于Transformer架构,并针对指令遵循和长文本处理进行了优化。训练流程包括预训练和指令微调两个阶段。预训练阶段使用大规模文本数据,指令微调阶段使用高质量的指令数据。

关键创新:EXAONE 3.5的关键创新在于其高质量的指令微调数据集和针对长文本处理的优化。该数据集包含了大量真实场景下的指令,覆盖了各种应用领域。针对长文本处理,可能采用了诸如注意力机制优化、位置编码增强等技术。

关键设计:具体的技术细节,例如指令微调数据的构建方法、损失函数的设计、以及针对长文本处理的具体优化策略,在论文中没有详细描述,属于未知信息。推测可能使用了强化学习或对抗学习等方法来进一步提升指令遵循能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EXAONE 3.5在七个真实场景基准测试中取得了最高分,展现了卓越的指令遵循能力。在四个长文本理解基准测试中获得了最佳性能,证明了其强大的长上下文处理能力。此外,在九个通用基准测试中,与同等规模的先进开源模型相比,取得了具有竞争力的结果。

🎯 应用场景

EXAONE 3.5系列大语言模型可广泛应用于智能客服、内容创作、代码生成、教育辅导等领域。其强大的指令遵循能力和长文本理解能力,使其能够更好地理解用户意图,提供更精准、更个性化的服务。未来,该模型有望推动人工智能在各行业的应用,提升生产效率和用户体验。

📄 摘要(原文)

This technical report introduces the EXAONE 3.5 instruction-tuned language models, developed and released by LG AI Research. The EXAONE 3.5 language models are offered in three configurations: 32B, 7.8B, and 2.4B. These models feature several standout capabilities: 1) exceptional instruction following capabilities in real-world scenarios, achieving the highest scores across seven benchmarks, 2) outstanding long-context comprehension, attaining the top performance in four benchmarks, and 3) competitive results compared to state-of-the-art open models of similar sizes across nine general benchmarks. The EXAONE 3.5 language models are open to anyone for research purposes and can be downloaded from https://huggingface.co/LGAI-EXAONE. For commercial use, please reach out to the official contact point of LG AI Research: contact_us@lgresearch.ai.