Injecting Knowledge from Social Science Journals to Improve Indonesian Cultural Understanding by LLMs
作者: Adimulya Kartiyasa, Bao Gia Cao, Boyang Li
分类: cs.CL
发布日期: 2026-01-19
💡 一句话要点
提出 IndoSoSci 数据集,并结合 RAG 方法提升 LLM 对印度尼西亚文化的理解
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 印度尼西亚文化 大型语言模型 知识注入 检索增强生成 社会科学期刊 文化理解 IndoSoSci
📋 核心要点
- 现有方法在利用本土视角理解印度尼西亚文化方面存在不足,忽略了社会科学期刊这一重要知识来源。
- 论文提出从印度尼西亚社会科学期刊中提取文化知识,并结合检索增强生成(RAG)注入 LLM。
- 实验表明,该方法在 IndoCulture 基准测试中显著提升了性能,并取得了新的最佳结果。
📝 摘要(中文)
为了提升大型语言模型(LLM)对印度尼西亚文化的理解,本文提出了一种新颖的方法。作者们创建了一个名为 IndoSoSci 的文本数据集,该数据集来源于151个开源的印度尼西亚社会科学期刊,其中包含了大量的本土文化研究。论文展示了一种有效的知识注入方法:首先,从 IndoSoSci 中提取与印度尼西亚文化相关的知识;然后,应用检索增强生成(RAG),并使用 LLM 生成的假设文档作为检索时的查询。实验结果表明,该方法在 IndoCulture 基准测试中优于多个强大的基线模型。此外,通过将 IndoSoSci 与印度尼西亚维基百科相结合,作者们在 IndoCulture 基准测试上取得了新的state-of-the-art的准确率。
🔬 方法详解
问题定义:现有的大型语言模型在理解印度尼西亚文化方面存在不足,尤其是在缺乏本土视角的情况下。现有的方法往往忽略了印度尼西亚本地社会科学期刊中蕴含的大量文化知识。因此,如何有效地利用这些期刊中的知识来提升LLM的文化理解能力是一个关键问题。
核心思路:论文的核心思路是从印度尼西亚社会科学期刊中提取文化相关的知识,并利用检索增强生成(RAG)的方法,将这些知识注入到LLM中。通过RAG,LLM可以在生成文本时检索相关的文化知识,从而提高其对印度尼西亚文化的理解和表达能力。
技术框架:整体框架包括以下几个主要阶段:1) 构建 IndoSoSci 数据集,该数据集包含从151个印度尼西亚社会科学期刊中提取的文章段落。2) 从 IndoSoSci 数据集中提取与印度尼西亚文化相关的知识。3) 使用 LLM 生成假设文档作为检索查询。4) 使用 RAG 方法,结合生成的查询和 IndoSoSci 数据集,增强 LLM 的生成能力。
关键创新:论文的关键创新在于:1) 构建了 IndoSoSci 数据集,为研究印度尼西亚文化提供了一个新的知识来源。2) 提出了使用 LLM 生成的假设文档作为 RAG 查询的方法,提高了检索的准确性和效率。3) 将社会科学期刊的知识注入到 LLM 中,从而提升了 LLM 对印度尼西亚文化的理解。
关键设计:在 RAG 过程中,使用 LLM 生成的假设文档作为查询,可以更好地模拟人类的检索行为,从而提高检索的准确性。具体来说,可以调整 LLM 生成查询的参数,例如温度系数,以控制生成查询的多样性。此外,还可以使用不同的检索算法,例如 BM25 或基于向量相似度的检索,来优化检索效果。损失函数方面,可以使用交叉熵损失函数来训练 LLM,使其更好地利用检索到的知识生成文本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的方法在 IndoCulture 基准测试中取得了显著的性能提升。具体来说,该方法优于多个强大的基线模型,并且通过与印度尼西亚维基百科相结合,取得了新的 state-of-the-art 的准确率。这些结果证明了从社会科学期刊中提取文化知识,并结合 RAG 方法的有效性。
🎯 应用场景
该研究成果可应用于多个领域,例如:开发更具文化敏感性的聊天机器人、提升机器翻译的准确性(尤其是在文化相关的文本中)、以及为文化研究提供更强大的工具。通过提升LLM对特定文化的理解,可以促进跨文化交流和理解,减少文化误解和偏见。未来,该方法可以推广到其他文化领域,构建更全面的文化知识库。
📄 摘要(原文)
Recently there have been intensifying efforts to improve the understanding of Indonesian cultures by large language models (LLMs). An attractive source of cultural knowledge that has been largely overlooked is local journals of social science, which likely contain substantial cultural studies from a native perspective. We present a novel text dataset of journal article passages, created from 151 open-source Indonesian social science journals, called IndoSoSci. We demonstrate an effective recipe for injecting Indonesian cultural knowledge therein into LLMs: extracting the facts related to Indonesian culture, and apply retrieval-augmented generation (RAG) with LLM-generated hypothetical documents as queries during retrieval. The proposed recipe yields strong performance gains over several strong baselines on the IndoCulture benchmark. Additionally, by combining IndoSoSci with Indonesian Wikipedia, we set a new state-of-the-art accuracy on the IndoCulture benchmark.