揭秘扩散模型“创造力”的深层机制:从局部拼贴到智能涌现的新哲学

温故智新AIGC实验室

TL;DR:

斯坦福大学的最新研究通过“等变局部评分机”(ELS)模型,揭示了扩散模型在生成全新图像时的“创造力”并非偶然,而是其底层卷积神经网络归纳偏置的必然结果。这一突破性理论不仅为理解生成式AI的局限和潜力提供了新的视角,更预示着未来可控、高效AIGC商业应用的新纪元。

人工智能的“创造力”一直是一个引人深思的话题。当扩散模型(Diffusion Models)生成令人惊叹的全新图像时,我们不禁要问:这究竟是机器的真正创造,还是对现有数据的巧妙重组?斯坦福大学的Mason Kamb和Surya Ganguli在最新研究中,为这一哲学与技术交织的难题提供了一个令人信服的答案,他们提出的“等变局部评分机”(ELS)理论,首次以量化精度解析了扩散模型的创造行为,揭示了其深层机制与未来演进路径。

技术原理与创新点解析

扩散模型的核心在于其独特的去噪生成过程:从高斯噪声中逐步“提取”出图像,这本质上是学习一个指向概率递增方向的评分函数。传统观点认为,如果模型能完美掌握这个评分函数,它只能重现训练集中的图像,缺乏创造性。然而,Kamb和Ganguli的洞察在于,正是神经网络在估计这个理想评分函数时的**“不完美”——即其固有的归纳偏置**——催生了超越记忆的“新”图像。1

研究人员特别指出了两种关键的归纳偏置:

  • 平移等变性(Translational Equivariance):模型对输入图像的位移变化具有鲁棒性,生成结果也会相应平移,体现了对空间位置关系的理解。
  • 局部性(Locality):由于卷积神经网络(CNN)在估算评分函数时只考虑输入像素的局部邻域,而非全局信息,这导致模型倾向于进行局部特征的组合。

基于这些洞察,他们构建了ELS数学模型,该模型能够计算去噪图像的组合。令人瞩目的是,当ELS的输出与在简化模型上训练的ResNet和UNet等扩散模型进行对比时,两者表现出**“显著且一致的量化吻合”,准确率高达90%以上。这有力地证明了,局部性与等变性足以解释纯卷积扩散模型的创造力。Ganguli教授将这种创造力生动地描述为“在新图像不同位置混合匹配训练集的局部图像块”,本质上是一种局部拼贴式的创造力模型**。2 这一理论甚至能解释扩散模型常见的“错误”,例如生成多余的手指或肢体,这些正是过度局部化导致的不连贯性表现。

值得注意的是,尽管初始研究排除了包含高度非局部自注意力层(SA)的扩散模型,但后续测试表明,ELS机对含有SA层的UNet模型输出的预测准确率依然显著高于基线,这为理解更复杂的扩散模型奠定了坚实基础。研究团队还开源了实验代码3,这无疑将加速相关领域的探索。

产业生态影响评估

这项基础性研究对蓬勃发展的AIGC产业具有深远影响。当前,尽管扩散模型已广泛应用于图像生成、视频创作和3D建模,但其“创造”过程的不可控性及偶尔出现的“怪异”输出(如多指、畸形结构)一直是商业化落地的痛点。ELS理论的提出,为我们提供了前所未有的**可解释性可控性**路径:

  • 提升生成内容的质量与可靠性:理解生成错误的根源,有助于开发者在模型设计和训练阶段更有效地缓解这些问题,从而生成更高质量、更符合预期的内容,减少人工后期修正成本。这对于广告、设计、影视制作等对内容精度要求极高的行业至关重要。
  • 催生更精准的商业应用:例如,在时尚设计领域,设计师可以通过调整模型的局部偏置,更精准地控制纹理、图案或局部结构的组合,实现“受控创新”;在医疗影像辅助诊断中,更可控的生成模型可以合成特定病灶图像用于训练,同时避免生成不自然的伪影。
  • 优化模型训练与部署:通过理解归纳偏置对创造力的影响,开发者可以设计更优化的模型架构或训练策略,以更高效的方式引导模型生成特定风格或特征的内容,降低计算资源消耗,加速模型迭代周期。这种效率提升对于依赖大规模模型部署的云服务商和企业级AI解决方案提供商尤为重要。

从投资角度看,这项研究为生成式AI的**“去模糊化”“工程化”**提供了理论支撑,使得相关投资的风险更可控,回报更可期。此前,生成式AI的“黑箱”属性一定程度上限制了其在关键业务场景中的应用,而今,随着对其内部机制理解的加深,资本市场对可解释、可控AI的兴趣将显著增加。

未来发展路径预测

这项研究不仅解释了当前扩散模型的“创造力”来源,更重要的是,它为未来AI模型的发展指明了方向:

  1. 走向更精细化的“创造力”控制:未来3-5年,我们有望看到基于ELS理论的扩散模型出现,能够允许用户或开发者更精细地调整或注入特定的归纳偏置,从而实现对生成内容的**“意图性控制”**。例如,用户可能可以指定“以印象派画风融合野兽派的色彩局部特征”的指令,而模型能精确响应。
  2. 融合全局与局部,突破“拼贴”限制:研究者也指出,ELS理论为理解包含自注意力层等非局部机制的扩散模型奠定了基础。这意味着未来的模型可能会更好地融合局部组合与全局协调能力,克服当前“局部拼贴”导致的结构性缺陷(如多余肢体),向更接近人类复杂构思能力的“创造”迈进。
  3. 对AGI探索的启示:从哲学层面看,这项研究触及了智能体“从何而来”的根本问题。如果“创造力”源于底层计算结构的必然性,那么其他高级智能行为是否也根植于类似的结构性偏置?理解这些偏置,将是构建更接近通用人工智能(AGI)的关键一步,它将帮助我们设计出不仅能执行任务,更能理解和模拟人类认知与创造过程的AI。
  4. 加速“AI for Science”进程:当研究者能精确解析深度神经网络的行为时,这种洞察力也将反哺科学发现本身。例如,在材料科学、药物发现等领域,AI不仅能生成新的分子结构,其生成过程的可解释性将帮助科学家理解为何某些结构具备特定性质,从而加速实验迭代和新材料研发。

斯坦福的这项研究不仅揭示了扩散模型的奥秘,更在全球范围内引发了对AI创造力本质的深层思考。它强调,即便看似自发的“创造”,也可能根植于其计算结构与数据交互的必然性。这一发现,不仅是算法理论的突破,更是将生成式AI从“奇迹”推向“科学”,从“艺术”推向“工程”的关键一步。它预示着一个更加可控、可预测、且更具颠覆性商业价值的AIGC时代的到来,也将深刻重塑人类与机器的共创未来。

引用


  1. Mason Kamb, Surya Ganguli. Mechanisms of Creativity in Deep Generative Models · arXiv · Mason Kamb, Surya Ganguli (2024/12/20) · 检索日期2025/7/8 ↩︎

  2. 研究人员试图揭示扩散模型中创造力的起源 · SegmentFault思否 · (2025/7/8) · 检索日期2025/7/8 ↩︎

  3. Kambm/convolutional_diffusion: Code for "Mechanisms of Creativity in Deep Generative Models" · GitHub · (2025/7/8) · 检索日期2025/7/8 ↩︎