Before the Shutter: Aesthetic and Actionable Portrait Photography Planning in 3D Scenes

📄 arXiv: 2605.30318v1 📥 PDF

作者: Ruixiang Jiang, Chang Wen Chen

分类: cs.GR, cs.AI, cs.CV

发布日期: 2026-05-28

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于3D场景的美学人像摄影规划方法,实现拍摄前的人物姿态、相机配置和光照设计。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 人像摄影规划 3D场景理解 美学评估 摄影场景图 姿态估计

📋 核心要点

  1. 现有计算方法主要集中在2D图像空间的后期制作,如修饰、光照调整或编辑现有图像,而拍摄前的摄影规划很大程度上未被探索。
  2. 本文构建摄影场景图,表示场景可供性、主体-场景关系和人像光照结构,并进行美学引导的比较规划。
  3. 实验表明,该方法在多样化的场景中生成的人像,在物理合理性高的前提下,更受人类和MLLM评估者的青睐。

📝 摘要(中文)

本文提出了一种3D美学人像规划方法,旨在生成在3D场景中产生视觉上引人入胜的人像的人物姿态、相机配置、光照和曝光计划,同时满足几何和光度可行性。该方法构建了一个摄影场景图,表示场景的可供性、主体与场景的关系以及与人像相关的光照结构。在此基础上,我们对之前的尝试和当前的取景器观察结果进行美学引导的比较规划。在各种室内和室外场景中的实验表明,与竞争基线相比,我们提出的方法生成的人像更受人类评估者和MLLM评估器的青睐,同时保持了较高的物理合理性。总而言之,我们的结果表明了一条从拍摄后校正到拍摄前计算人像规划的路径。

🔬 方法详解

问题定义:现有的人像摄影计算方法主要集中在拍摄后的图像处理,例如图像修饰、重新打光等,而忽略了拍摄前的规划。拍摄前的人像规划,包括人物姿态、相机配置、光照设备等,对最终照片的质量至关重要。因此,如何根据3D场景信息,在拍摄前进行合理的人像摄影规划是一个重要的研究问题。

核心思路:本文的核心思路是构建一个能够表示场景信息、主体与场景关系以及光照结构的“摄影场景图”(Photographic Scene Graph)。基于这个场景图,可以进行美学引导的比较规划,从而选择最佳的人物姿态、相机配置和光照方案。这种预先规划的方式可以避免后期处理的局限性,提高人像摄影的质量和效率。

技术框架:该方法主要包含以下几个阶段: 1. 场景理解:对3D场景进行分析,提取场景的几何信息和语义信息。 2. 摄影场景图构建:基于场景信息,构建摄影场景图,表示场景的可供性、主体与场景的关系以及光照结构。 3. 美学引导的规划:根据预定义的美学规则,在摄影场景图上进行搜索和比较,选择最佳的人物姿态、相机配置和光照方案。 4. 渲染和评估:将规划的结果渲染成图像,并进行美学评估,从而优化规划过程。

关键创新:该方法最重要的创新点在于提出了“摄影场景图”的概念,并将美学规则融入到摄影规划的过程中。通过摄影场景图,可以有效地表示场景信息和主体与场景的关系,从而为摄影规划提供更全面的信息。美学规则的引入可以保证生成的人像具有较高的美学价值。

关键设计: * 摄影场景图的构建:摄影场景图需要包含场景的几何信息、语义信息、主体信息和光照信息。这些信息可以通过不同的传感器和算法获取。 * 美学规则的定义:美学规则可以基于已有的摄影理论和美学原则进行定义,例如构图规则、色彩搭配规则等。 * 规划算法的设计:规划算法需要在摄影场景图上进行搜索和比较,选择最佳的姿态、相机和光照方案。可以使用启发式搜索算法或优化算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法生成的人像在美学质量和物理合理性方面均优于现有的方法。具体来说,人类评估者和MLLM评估器都更喜欢该方法生成的人像。此外,该方法还能够生成具有较高物理合理性的人像,这意味着生成的人像在光照和几何方面都符合物理规律。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发等领域,例如,可以帮助用户在虚拟环境中进行人像摄影练习,或者在增强现实应用中自动生成高质量的人像照片。此外,该技术还可以应用于智能摄影设备,提高拍摄效率和照片质量,甚至可以辅助专业摄影师进行前期布光和场景设计,极大地提升工作效率。

📄 摘要(原文)

Portrait photography is largely decided before the shutter opens: the subject's pose, the camera configuration, and the lighting devices must be coordinated within the surrounding 3D scene. In contrast, most existing computational methods focus on post-production in 2D image space, such as retouching, relighting, or editing images that already exist; pre-capture photographic planning remains largely unexplored. We introduce 3D aesthetic portrait planning, the task of generating human pose, camera, lighting, and exposure plans that produce visually compelling portraits while satisfying geometric and photometric feasibility in a 3D scene. Our approach builds a Photographic Scene Graph that represents scene affordances, subject-scene relations, and portrait-relevant lighting structure. Built on this representation, we perform aesthetic-guided comparative planning over previous attempts and current viewfinder observations. Experiments across diverse indoor and outdoor scenes show that our method produces portraits preferred by human raters and MLLM evaluators over competitive baselines, while maintaining high physical plausibility. Together, our results suggest a path from post-capture correction toward pre-capture computational portrait planning. Project repository: https://github.com/songrise/Before-the-Shutter