为什么扩散模型与其他现有的生成方法相比如此优秀?

问题描述 投票:0回答:1

虽然变分模型、基于归一化流的模型和对抗模型都可以被证明有像扩散模型一样的概率理论支持,但除了计算复杂性之外,扩散模型逐渐成为主导范式。

我在相当多的文献中看到,我们通过显示基准结果来谈论扩散模型是否比其他模型更好以及好多少,但我找不到一篇谈论扩散方法的特征是什么,以实现如此质量的飞跃,即,为什么。

例如,在 GAN 中,模式崩溃似乎是模型固有的问题,但我还没有看到关于为什么其他模型从理论角度(据我所知)没有遇到同样问题的讨论。 (我们讨论了如何在对抗性框架内缓解问题,但我希望以一种统一的方式跨不同模型进行这样的讨论)

我希望文献或讨论能够启发我,可能会列出其他模型所遭受的问题,扩散机制可以避免或解决,不是通过向我展示基准结果,而是通过向我证明(即使它不是)严格的数学证明),例如,扩散模型中的此类量(例如某些随机变量的方差)受此类常数的限制,而在其他模型中则不受限制。

generative-adversarial-network
1个回答
0
投票

我只能谈谈为什么在某些特定情况下它们比 GAN 更受青睐。一般来说,如果您是一家拥有大量计算能力的大公司,并且对绝对最高质量的高分辨率图像生成感兴趣,那么扩散模型适合您。除此之外,GAN 和其他模型仍然有大量用例。

我想说扩散模型在上述领域占据主导地位的主要原因是训练稳定性。虽然其主要竞争对手 GAN 必须平衡判别器和生成器之间的训练目标,但扩散模型具有简单的 L2 目标。当您拥有大量数据时,能够将其放入模型并对其进行训练会很有用,这或多或少可以使用 DDPM 等“更简单”模型来完成。使用 GAN,您可能需要调整更多的超参数才能看到哪种效果最好,当您使用更多不同的数据时,这个问题就会放大。即使如此,你仍然可能在训练过程中发生模式崩溃。有大量文献致力于尝试解决训练 GAN 时出现的各种问题,虽然许多问题可以解决,但您仍然必须解决它们,而 DDPM 则一开始就不会出现这些问题。

除此之外,DDPM 还具有迭代性质。该模型本质上不是一次性生成图像,而是朝着可信图像的方向移动。这具有让模型在最终生成之前多次修复或改进先前的去噪步骤的效果,因为它更接近真实的数据分布。扩散模型实际上是一堆一起工作的模型(具有大量参数共享),每个模型专门针对特定的噪声级别。您还可以免费获得每个噪声级别的新训练数据。

© www.soinside.com 2019 - 2024. All rights reserved.