如何在深层生成模型(VAE)中解决爆炸梯度?
注意:数据集在列中包含许多NaNs值
我不确定爆炸渐变是否是VAE的典型特征。这可能是您的代码中的另一个问题。但是,爆炸渐变通常通过渐变剪切来解决:
weights = weights*clipping_threshold/l2_norm(weights)
其中clipping_threshold等于1。