如何将 Tensorflow BatchNormalization 与 GradientTape 结合使用？

Question

假设我们有一个使用 BatchNormalization 的简单 Keras 模型：

model = tf.keras.Sequential([
                     tf.keras.layers.InputLayer(input_shape=(1,)),
                     tf.keras.layers.BatchNormalization()
])

如何实际使用 GradientTape？以下似乎不起作用，因为它没有更新移动平均线？

# model training... we want the output values to be close to 150
for i in range(1000):
  x = np.random.randint(100, 110, 10).astype(np.float32)
  with tf.GradientTape() as tape:
    y = model(np.expand_dims(x, axis=1))
    loss = tf.reduce_mean(tf.square(y - 150))
  grads = tape.gradient(loss, model.variables)
  opt.apply_gradients(zip(grads, model.variables))

特别是，如果您检查移动平均线，它们保持不变（检查 model.variables，平均值始终为 0 和 1）。我知道可以使用 .fit() 和 .predict()，但我想使用 GradientTape 并且我不知道如何执行此操作。某些版本的文档建议更新 update_ops，但这似乎在 eager 模式下不起作用。

特别是，经过上述训练后，以下代码将不会输出任何接近 150 的值。

x = np.random.randint(200, 210, 100).astype(np.float32)
print(model(np.expand_dims(x, axis=1)))

Answer 1

使用梯度磁带模式 BatchNormalization 层应使用参数 Training=True 来调用

示例：

inp = KL.Input( (64,64,3) )
x = inp
x = KL.Conv2D(3, kernel_size=3, padding='same')(x)
x = KL.BatchNormalization()(x, training=True)
model = KM.Model(inp, x)

然后移动变量被正确更新

>>> model.layers[2].weights[2]
<tf.Variable 'batch_normalization/moving_mean:0' shape=(3,) dtype=float32, numpy
=array([-0.00062087,  0.00015137, -0.00013239], dtype=float32)>

Answer 2

我就放弃了。我花了一点时间试图理解一个看起来像这样的模型：

model = tf.keras.Sequential([
                     tf.keras.layers.BatchNormalization(),
])

我确实放弃了，因为那件事看起来像这样：

我的直觉是，现在的 BatchNorm 并不像以前那样直接，这就是为什么它扩展了原始分布，但没有扩展那么多新分布（这是一个遗憾），但没有人有时间这样做。

编辑：这种行为的原因是 BN 仅在训练期间计算矩并标准化批次。在训练期间，它会保持平均值和偏差的运行平均值，一旦切换到评估，参数将用作常量。即评估不应该依赖于标准化，因为评估甚至可以用于单个输入并且不能依赖于批量统计。由于常数是根据不同的分布计算的，因此在评估过程中您会得到更高的错误。

Answer 3

使用渐变胶带模式，您通常会发现如下渐变：

with tf.GradientTape() as tape:
    y_pred = model(features)
    loss = your_loss_function(y_pred, y_true)
    gradients = tape.gradient(loss, model.trainable_variables)

train_op = model.optimizer.apply_gradients(zip(gradients, model.trainable_variables))

但是，如果您的模型包含

BatchNormalization

或

Dropout

层（或具有不同训练/测试阶段的任何层），那么 tf 将无法构建图。

一个好的做法是在从模型获取输出时显式使用

trainable

参数。优化时使用

model(features, trainable=True)

和预测时使用

model(features, trainable=False)

，以便在使用此类层时明确选择训练/测试阶段。

对于

PREDICT

和

EVAL

阶段，使用

training = (mode == tf.estimator.ModeKeys.TRAIN)
y_pred = model(features, trainable=training)

对于

TRAIN

阶段，使用

with tf.GradientTape() as tape:
    y_pred = model(features, trainable=training)
    loss = your_loss_function(y_pred, y_true)
    gradients = tape.gradient(loss, model.trainable_variables)

train_op = model.optimizer.apply_gradients(zip(gradients, model.trainable_variables))

请注意，iperov 的答案也有效，只是您需要为这些层手动设置训练阶段。

x = BatchNormalization()(x, training=True)
x = Dropout(rate=0.25)(x, training=True)

x = BatchNormalization()(x, training=False)
x = Dropout(rate=0.25)(x, training=False)

我建议使用一个

get_model

函数来返回模型，同时在调用模型时使用

training

参数更改相位。

注：

如果您在查找渐变时使用

model.variables

，您将收到此警告

Gradients do not exist for variables 
['layer_1_bn/moving_mean:0', 
'layer_1_bn/moving_variance:0', 
'layer_2_bn/moving_mean:0', 
'layer_2_bn/moving_variance:0'] 
when minimizing the loss.

这可以通过仅针对可训练变量计算梯度来解决。将

model.variables

替换为

model.trainable_variables

Answer 4

Saravanbalagi 的答案很好，但是，我认为他的代码中可能有一个轻微的拼写错误。他说：

y_pred = model(features, trainable=training)

但是根据这里的 Tensorflow 文档https://www.tensorflow.org/api_docs/python/tf/keras/Model#call，它应该是：

y_pred = model(features, training=training)

如何将 Tensorflow BatchNormalization 与 GradientTape 结合使用？

问题描述投票：0回答：4

4个回答

最新问题

如何将 Tensorflow BatchNormalization 与 GradientTape 结合使用？

问题描述 投票：0回答：4

4个回答

最新问题

问题描述投票：0回答：4