BaZi-Based Character Simulation Benchmark: Evaluating AI on Temporal and Persona Reasoning

作者: Siyuan Zheng, Pai Liu, Xi Chen, Jizheng Dong, Sihan Jia

分类: cs.CL

发布日期: 2025-10-27

期刊: WordPlay Workshop 2025

💡 一句话要点

提出基于八字的AI角色模拟基准，提升AI在时序和人物性格推理上的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 八字命理 角色模拟 大型语言模型 符号推理 知识融合

📋 核心要点

现有虚拟角色生成方法依赖大量标注数据或手工提示，难以规模化生成真实且连贯的角色。
提出BaZi-LLM系统，结合符号推理和大型语言模型，生成具有时间动态和细粒度的虚拟角色。
实验表明，该方法在八字人物性格推理任务上，相比主流LLM准确率提升30.3%-62.6%。

📝 摘要（中文）

本文提出了一种基于八字的人物性格推理QA数据集，用于评估AI在模拟人类虚拟角色方面的能力。现有方法严重依赖标注数据或手工设计的人物提示，难以扩展并生成逼真、上下文连贯的角色。该数据集将真实人类经历归类为财富、健康、亲属关系、事业和人际关系等，并表示为生活事件问答。此外，本文还提出了首个BaZi-LLM系统，该系统集成了符号推理与大型语言模型，以生成时间动态和细粒度的虚拟角色。与主流LLM（如DeepSeek-v3和GPT-5-mini）相比，该方法实现了30.3%-62.6%的准确率提升。当使用不正确的八字信息时，模型的准确率下降了20%-45%，表明了文化背景下的符号-LLM集成在逼真角色模拟方面的潜力。

🔬 方法详解

问题定义：现有虚拟角色生成方法主要依赖于大量标注数据或人工设计的角色提示，这限制了其可扩展性和生成角色的真实性与上下文连贯性。缺乏一个能够有效评估AI在理解和模拟人类性格，特别是基于文化背景的性格特征的基准。

核心思路：本文的核心思路是将中国传统文化中的八字命理学与大型语言模型相结合，利用八字命理学中的符号推理能力来指导LLM生成更具文化背景和时间动态的角色性格。通过这种方式，模型可以更好地理解和模拟人类在不同生活事件中的反应。

技术框架：BaZi-LLM系统主要包含两个核心模块：八字解析模块和LLM生成模块。首先，八字解析模块将输入的八字信息转化为一系列符号化的特征表示。然后，这些特征表示被输入到LLM生成模块中，LLM根据这些特征生成与角色相关的文本描述，例如生活事件的问答。整个流程旨在将八字命理学中的知识融入到LLM的生成过程中，从而生成更具文化背景和时间动态的角色。

关键创新：该方法最重要的创新点在于将符号推理与大型语言模型相结合，利用八字命理学中的符号推理能力来指导LLM生成角色性格。与现有方法相比，该方法不需要大量标注数据，并且能够生成更具文化背景和时间动态的角色性格。此外，该方法还提出了一个新的QA数据集，用于评估AI在八字人物性格推理方面的能力。

关键设计：BaZi-LLM系统的关键设计在于如何将八字命理学中的知识有效地融入到LLM的生成过程中。具体来说，本文采用了一种基于特征表示的方法，将八字信息转化为一系列符号化的特征表示，然后将这些特征表示作为LLM的输入。此外，本文还设计了一种新的损失函数，用于指导LLM生成与八字信息相关的文本描述。具体的参数设置和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，BaZi-LLM系统在八字人物性格推理任务上取得了显著的性能提升。与DeepSeek-v3和GPT-5-mini等主流LLM相比，该方法实现了30.3%-62.6%的准确率提升。此外，当使用不正确的八字信息时，模型的准确率下降了20%-45%，验证了该方法对八字信息的依赖性，并表明了文化背景下的符号-LLM集成在逼真角色模拟方面的潜力。

🎯 应用场景

该研究成果可应用于游戏、故事叙述和虚拟现实等领域，创造更真实、更具文化底蕴的虚拟角色。通过结合传统文化和人工智能技术，可以提升用户在虚拟环境中的沉浸感和互动体验。未来，该技术还可用于心理咨询、性格分析等领域，为用户提供个性化的服务。

📄 摘要（原文）

Human-like virtual characters are crucial for games, storytelling, and virtual reality, yet current methods rely heavily on annotated data or handcrafted persona prompts, making it difficult to scale up and generate realistic, contextually coherent personas. We create the first QA dataset for BaZi-based persona reasoning, where real human experiences categorized into wealth, health, kinship, career, and relationships are represented as life-event questions and answers. Furthermore, we propose the first BaZi-LLM system that integrates symbolic reasoning with large language models to generate temporally dynamic and fine-grained virtual personas. Compared with mainstream LLMs such as DeepSeek-v3 and GPT-5-mini, our method achieves a 30.3%-62.6% accuracy improvement. In addition, when incorrect BaZi information is used, our model's accuracy drops by 20%-45%, showing the potential of culturally grounded symbolic-LLM integration for realistic character simulation.

BaZi-Based Character Simulation Benchmark: Evaluating AI on Temporal and Persona Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理