Adopting a human developmental visual diet yields robust, shape-based AI vision
作者: Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann
分类: cs.LG, cs.CV
发布日期: 2025-07-03
💡 一句话要点
提出基于人类视觉发育的AI视觉训练方法,提升AI的形状感知能力和鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI视觉 形状感知 鲁棒性 对抗攻击 人类视觉发育 发育视觉食谱 深度学习 图像识别
📋 核心要点
- 现有AI视觉系统过度依赖纹理特征,缺乏对形状的感知能力,导致鲁棒性差,易受攻击。
- 该论文提出一种受人类视觉发育启发的训练方法,通过构建发育视觉食谱(DVD)来引导AI学习。
- 实验表明,该方法训练的AI模型在形状识别、鲁棒性和抗攻击性方面均优于现有模型,甚至超越了更大规模的模型。
📝 摘要(中文)
尽管人工智能(AI)系统经过多年的研究和显著的规模扩展,但人工视觉与人类视觉之间仍然存在显著的不一致。与人类不同,AI严重依赖纹理特征而非形状信息,缺乏对图像失真的鲁棒性,极易受到对抗攻击的影响,并且难以识别复杂背景中的简单抽象形状。为了弥合这一差距,我们提出了一种解决方案,该方案源于一个先前未被充分探索的方向:我们没有扩大规模,而是从人类视觉从婴儿早期发展到成年的方式中汲取灵感。我们通过将数十年的心理物理学和神经生理学研究综合成一种新颖的AI视觉发育视觉食谱(DVD)来量化视觉成熟度。我们表明,通过这种受人类启发的课程指导AI系统,可以生成在所有测试的鲁棒视觉标志上与人类行为紧密一致的模型,从而产生迄今为止最强的形状信息依赖性、超越现有技术的抽象形状识别能力、更高的图像损坏鲁棒性以及更强的对抗攻击弹性。通过优于在更多数量级的数据上训练的高参数AI基础模型,我们提供的证据表明,可以通过指导模型学习的方式(而不仅仅是学习的数量)来实现鲁棒的AI视觉,从而为实现更安全、更像人类的人工视觉系统提供了一种资源高效的途径。
🔬 方法详解
问题定义:现有AI视觉系统在图像识别中过度依赖纹理特征,而忽略了形状信息,导致其在面对图像失真、对抗攻击以及复杂背景下的抽象形状识别时表现不佳。这种与人类视觉的差异限制了AI在实际应用中的可靠性和安全性。
核心思路:该论文的核心思路是模仿人类视觉系统的发育过程,构建一个“发育视觉食谱”(Developmental Visual Diet, DVD),通过控制AI模型在训练过程中接触到的视觉刺激类型和顺序,引导其学习更像人类一样依赖形状信息进行识别。
技术框架:该方法主要包含两个阶段:首先,基于心理物理学和神经生理学研究,构建一个DVD,该DVD定义了AI模型在不同训练阶段应该接触的视觉刺激类型,例如简单形状、自然图像、噪声图像等,以及它们的呈现顺序和比例。其次,使用该DVD训练AI模型,并在各种鲁棒性测试(例如图像损坏、对抗攻击)和形状识别任务上评估模型的性能。
关键创新:该方法的关键创新在于将人类视觉发育的原理应用于AI视觉训练,通过控制训练数据的分布和顺序,引导AI模型学习更符合人类视觉特性的表征。与传统的依赖大规模数据训练的方法不同,该方法更注重训练数据的质量和组织方式。
关键设计:DVD的设计是该方法的关键。具体来说,DVD可能包含以下设计:1) 早期阶段侧重于简单形状和对比度信息,帮助模型学习基本的形状感知能力;2) 中期阶段引入自然图像和噪声图像,提高模型的鲁棒性;3) 后期阶段引入更复杂的场景和抽象形状,提高模型的泛化能力。此外,损失函数的设计也可能需要调整,例如引入形状一致性损失,鼓励模型学习对形状变化不敏感的表征。
📊 实验亮点
该方法训练的AI模型在形状识别任务上超越了现有技术水平,并且在图像损坏和对抗攻击等鲁棒性测试中表现出显著的提升。更重要的是,该方法在性能上优于使用更大规模数据训练的高参数AI基础模型,表明引导模型学习方式比单纯增加数据量更有效。
🎯 应用场景
该研究成果可应用于自动驾驶、医疗影像分析、安防监控等领域,提升AI视觉系统在复杂环境下的可靠性和安全性。通过模仿人类视觉发育过程,有望开发出更通用、更鲁棒的AI视觉系统,减少对大规模标注数据的依赖,降低训练成本。
📄 摘要(原文)
Despite years of research and the dramatic scaling of artificial intelligence (AI) systems, a striking misalignment between artificial and human vision persists. Contrary to humans, AI heavily relies on texture-features rather than shape information, lacks robustness to image distortions, remains highly vulnerable to adversarial attacks, and struggles to recognise simple abstract shapes within complex backgrounds. To close this gap, we here introduce a solution that arises from a previously underexplored direction: rather than scaling up, we take inspiration from how human vision develops from early infancy into adulthood. We quantified the visual maturation by synthesising decades of psychophysical and neurophysiological research into a novel developmental visual diet (DVD) for AI vision. We show that guiding AI systems through this human-inspired curriculum produces models that closely align with human behaviour on every hallmark of robust vision tested yielding the strongest reported reliance on shape information to date, abstract shape recognition beyond the state of the art, higher robustness to image corruptions, and stronger resilience to adversarial attacks. By outperforming high parameter AI foundation models trained on orders of magnitude more data, we provide evidence that robust AI vision can be achieved by guiding the way how a model learns, not merely how much it learns, offering a resource-efficient route toward safer and more human-like artificial visual systems.