KAHANI: Culturally-Nuanced Visual Storytelling Tool for Non-Western Cultures

📄 arXiv: 2410.19419v3 📥 PDF

作者: Hamna, Deepthi Sudharsan, Agrima Seth, Ritvik Budhiraja, Deepika Khullar, Vyshak Jain, Kalika Bali, Aditya Vashistha, Sameer Segal

分类: cs.CL

发布日期: 2024-10-25 (更新: 2025-03-11)

备注: Under review


💡 一句话要点

KAHANI:为非西方文化打造的、具有文化细微差别的视觉故事生成工具

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉故事生成 文化敏感性 非西方文化 文本到图像 思维链提示

📋 核心要点

  1. 现有文本到图像模型主要针对西方文化,导致非西方文化的故事生成存在文化偏差和不准确。
  2. Kahani利用GPT-4 Turbo和SDXL,结合思维链和T2I提示,从用户输入中提取文化背景,生成更具文化相关性的视觉故事。
  3. 用户研究表明,Kahani在文化细微差别和文化特定项目融入方面优于ChatGPT-4,验证了其有效性。

📝 摘要(中文)

大型语言模型(LLMs)和文本到图像(T2I)模型已经展示了生成引人注目的文本和视觉故事的能力。然而,它们的输出主要与全球北方地区的敏感性保持一致,经常导致对其他文化产生一种局外人的视角。因此,非西方社群必须投入额外的努力来生成具有文化特定性的故事。为了应对这一挑战,我们开发了一种名为Kahani的视觉故事生成工具,该工具为非西方文化生成具有文化基础的视觉故事。我们的工具利用了现成的模型GPT-4 Turbo和Stable Diffusion XL(SDXL)。通过使用思维链(CoT)和T2I提示技术,我们从用户的提示中捕捉文化背景,并生成对角色和场景构图的生动描述。为了评估Kahani的有效性,我们与ChatGPT-4(使用DALL-E3)进行了一项比较用户研究,其中来自印度不同地区的参与者比较了这两种工具生成的故事的文化相关性。用户研究中进行的定性和定量分析结果表明,Kahani的视觉故事比ChatGPT-4生成的视觉故事更具文化细微差别。在36次比较中,Kahani在27次中表现优于或与ChatGPT-4持平,有效地捕捉了文化细微差别并融入了更多文化特定项目(CSI),验证了其生成具有文化基础的视觉故事的能力。

🔬 方法详解

问题定义:论文旨在解决现有文本到图像模型在生成非西方文化相关故事时,缺乏文化敏感性和准确性的问题。现有方法主要基于全球北方地区的文化背景进行训练,导致生成的图像带有文化偏见,无法准确反映非西方文化的特点和价值观。这使得非西方用户需要付出额外的努力才能生成符合其文化背景的故事。

核心思路:论文的核心思路是通过结合大型语言模型(GPT-4 Turbo)的推理能力和文本到图像模型(Stable Diffusion XL)的生成能力,并引入思维链(Chain of Thought, CoT)提示技术,从用户输入中提取更丰富的文化背景信息。通过更准确地理解用户的意图和文化背景,从而生成更具文化相关性的视觉故事。

技术框架:Kahani的整体框架包含以下几个主要步骤:1) 用户输入包含文化背景的故事提示;2) 使用GPT-4 Turbo和CoT提示技术,从用户提示中提取文化背景信息,生成详细的角色和场景描述;3) 将生成的描述作为Stable Diffusion XL的输入,生成视觉故事图像;4) 对生成的图像进行评估,验证其文化相关性。

关键创新:该论文的关键创新在于将思维链提示技术应用于文化背景信息的提取,从而使模型能够更深入地理解用户输入的文化含义。此外,该工具专注于非西方文化,填补了现有文本到图像模型在文化多样性方面的空白。

关键设计:在提示工程方面,论文设计了特定的CoT提示,引导GPT-4 Turbo逐步推理并提取文化相关的细节。例如,提示可能包含“描述这个场景中人物的穿着,考虑到他们所处的文化背景”等问题。此外,论文还可能对Stable Diffusion XL的生成参数进行调整,以更好地适应非西方文化的视觉风格。

🖼️ 关键图片

img_0

📊 实验亮点

用户研究结果表明,Kahani在生成具有文化细微差别的视觉故事方面优于ChatGPT-4。在36次比较中,Kahani在27次中表现优于或与ChatGPT-4持平,有效地捕捉了文化细微差别并融入了更多文化特定项目(CSI)。这表明Kahani能够更好地理解和反映非西方文化的特点。

🎯 应用场景

Kahani可应用于教育、娱乐和文化遗产保护等领域。它可以帮助非西方文化背景的用户轻松创建反映自身文化的视觉故事,促进文化交流和理解。此外,该工具还可以用于生成文化相关的教育内容,提高学习者的文化意识和跨文化交流能力。未来,Kahani可以扩展到支持更多非西方文化,并与其他文化相关的应用集成。

📄 摘要(原文)

Large Language Models (LLMs) and Text-To-Image (T2I) models have demonstrated the ability to generate compelling text and visual stories. However, their outputs are predominantly aligned with the sensibilities of the Global North, often resulting in an outsider's gaze on other cultures. As a result, non-Western communities have to put extra effort into generating culturally specific stories. To address this challenge, we developed a visual storytelling tool called Kahani that generates culturally grounded visual stories for non-Western cultures. Our tool leverages off-the-shelf models GPT-4 Turbo and Stable Diffusion XL (SDXL). By using Chain of Thought (CoT) and T2I prompting techniques, we capture the cultural context from user's prompt and generate vivid descriptions of the characters and scene compositions. To evaluate the effectiveness of Kahani, we conducted a comparative user study with ChatGPT-4 (with DALL-E3) in which participants from different regions of India compared the cultural relevance of stories generated by the two tools. The results of the qualitative and quantitative analysis performed in the user study show that Kahani's visual stories are more culturally nuanced than those generated by ChatGPT-4. In 27 out of 36 comparisons, Kahani outperformed or was on par with ChatGPT-4, effectively capturing cultural nuances and incorporating more Culturally Specific Items (CSI), validating its ability to generate culturally grounded visual stories.