Beauty in the Eye of AI: Aligning LLMs and Vision Models with Human Aesthetics in Network Visualization
作者: Peng Zhang, Xuefeng Li, Xiaoqi Wang, Han-Wei Shen, Yifan Hu
分类: cs.LG
发布日期: 2026-04-07
💡 一句话要点
利用大语言模型和视觉模型对齐人类审美,实现网络可视化中的自动美学评估。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 网络可视化 大语言模型 视觉模型 人类偏好 审美评估
📋 核心要点
- 现有网络可视化方法依赖启发式度量,但无法始终保证最佳效果,且缺乏对人类审美偏好的直接学习。
- 论文提出利用大语言模型和视觉模型作为人类审美判断的代理,降低人工标注成本,实现自动化的美学评估。
- 实验表明,通过提示工程和置信度过滤,LLM能达到人与人之间的对齐水平,精心训练的VM也能达到可比的对齐水平。
📝 摘要(中文)
网络可视化传统上依赖于启发式度量,如压力,并假设优化这些度量可以产生美观且信息丰富的布局。然而,没有单一的度量能够始终如一地产生最有效的结果。一种数据驱动的替代方案是从人类偏好中学习,即注释者在同一图的多个布局中选择他们喜欢的可视化。这些人类偏好标签可以用于训练生成模型,以近似人类的审美偏好。然而,大规模获取人类标签的成本高昂且耗时。因此,这种生成方法迄今为止仅使用机器标记的数据进行了测试。在本文中,我们探索使用大型语言模型(LLM)和视觉模型(VM)作为人类判断的代理。通过一项精心设计的用户研究,涉及27名参与者,我们策划了一大批人类偏好标签。我们使用这些数据来更好地理解人类偏好,并引导LLM/VM标签器。我们表明,结合少量样本示例和多样化输入格式(如图像嵌入)的提示工程可以显著提高LLM与人类的对齐,并且通过LLM的置信度分数进行额外过滤可以将对齐推向人与人之间的水平。此外,我们证明,经过精心训练的VM可以实现与人类注释者之间相当的VM-人类对齐水平。我们的结果表明,AI可以作为人类标签器的可扩展代理。
🔬 方法详解
问题定义:网络可视化旨在生成美观且信息丰富的图布局。传统方法依赖于启发式度量,如压力最小化,但这些度量并不能完全捕捉人类的审美偏好。人工标注数据成本高昂,限制了数据驱动方法的应用。因此,如何低成本地获取高质量的审美偏好标签是一个关键问题。
核心思路:论文的核心思路是利用大语言模型(LLM)和视觉模型(VM)作为人类审美判断的代理。通过精心设计的提示工程和模型训练,使LLM和VM能够模仿人类的审美偏好,从而自动生成大规模的审美偏好标签。这样可以降低人工标注成本,并为数据驱动的网络可视化方法提供支持。
技术框架:整体框架包括以下几个阶段:1) 通过用户研究收集人类审美偏好数据;2) 利用收集到的数据,通过提示工程优化LLM,使其更好地对齐人类审美;3) 使用人类数据训练VM,使其能够预测人类的审美偏好;4) 使用LLM和VM生成大规模的审美偏好标签,用于训练网络可视化模型。
关键创新:论文的关键创新在于:1) 探索了使用LLM和VM作为人类审美判断代理的可行性;2) 提出了结合少量样本示例和多样化输入格式的提示工程方法,显著提高了LLM与人类的对齐;3) 证明了经过精心训练的VM可以达到与人类注释者之间相当的对齐水平。
关键设计:在LLM方面,采用了few-shot learning,并结合图像嵌入等多种输入格式,设计了有效的prompt。通过置信度分数过滤LLM的输出,进一步提高其准确性。在VM方面,使用了精心设计的网络结构和损失函数,并使用大量人类标注数据进行训练。具体的网络结构和损失函数细节在论文中未明确给出,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过提示工程和置信度过滤,LLM可以达到与人类标注者之间相当的审美偏好对齐水平。精心训练的VM也能达到可比的对齐水平,表明AI可以作为人类标签器的有效替代方案。具体的性能数据和提升幅度在论文中未明确给出,属于未知信息。
🎯 应用场景
该研究成果可应用于各种需要美观可视化的场景,例如社交网络分析、知识图谱展示、生物网络可视化等。通过自动化的美学评估,可以快速生成高质量的图布局,提升用户体验,并为数据分析提供更直观的界面。未来,该方法可以扩展到其他类型的数据可视化,例如地图可视化、信息图表等。
📄 摘要(原文)
Network visualization has traditionally relied on heuristic metrics, such as stress, under the assumption that optimizing them leads to aesthetic and informative layouts. However, no single metric consistently produces the most effective results. A data-driven alternative is to learn from human preferences, where annotators select their favored visualization among multiple layouts of the same graphs. These human-preference labels can then be used to train a generative model that approximates human aesthetic preferences. However, obtaining human labels at scale is costly and time-consuming. As a result, this generative approach has so far been tested only with machine-labeled data. In this paper, we explore the use of large language models (LLMs) and vision models (VMs) as proxies for human judgment. Through a carefully designed user study involving 27 participants, we curated a large set of human preference labels. We used this data both to better understand human preferences and to bootstrap LLM/VM labelers. We show that prompt engineering that combines few-shot examples and diverse input formats, such as image embeddings, significantly improves LLM-human alignment, and additional filtering by the confidence score of the LLM pushes the alignment to human-human levels. Furthermore, we demonstrate that carefully trained VMs can achieve VM-human alignment at a level comparable to that between human annotators. Our results suggest that AI can feasibly serve as a scalable proxy for human labelers.